Resumen:
This paper presents an AI module integrated into a social robot to support the early pre-diagnosis of childhood language difficulties through playful, non-invasive interactions. The system adopts a modular architecture comprising audio input and preprocessing, automatic speech recognition using fine-tuned Whisper for Spanish child speech, and linguistic analytics with automated reporting. A proof-of-concept was conducted in naturalistic settings (classroom and home) with two participants (ages 4 and 6). The fine-tuned model reduced WER from 16% to 11% compared with the base model. Analytics estimated a modal utterance length of 4–5 words and an average type–token ratio (TTR) of 0.42 (SD=0.07), with lower lexical diversity in the participant with suspected impairment. The classifier flagged 15% of records as “possible indications.” Response latency averaged 8.5 s for children with difficulties versus 4.2 s otherwise. Event-level confusion metrics were: Sensitivity = 0.65; Specificity ≈ 0.82; PPV ≈ 0.70; NPV ≈ 0.78. Children accepted the robot well, which fostered engagement. Findings indicate the approach is feasible as supportive screening in resource-constrained settings; it does not replace professional assessment. Future work includes enlarging the sample, adding multimodal signals, and optimizing deployment.
Descripción:
Este trabajo presenta el desarrollo de un módulo de inteligencia artificial integrado a un robot social para el prediagnóstico de dificultades del lenguaje infantil mediante interacciones lúdicas y no invasivas. El sistema sigue una arquitectura modular con: entrada y preprocesamiento de audio, transcripción automática con Whisper refinado para voces infantiles en español y analítica lingüística y generación de reportes. Se realizó una prueba de concepto en entorno natural (aula y hogar) con dos participantes (4 y 6 años). El modelo refinado redujo la WER del 16 % al 11 % frente al modelo base. La analítica estimó longitud enunciativa modal de 4–5 palabras y TTR medio de 0,42 (DE = 0,07), con menor diversidad léxica en el caso con indicios de trastorno. El clasificador marcó el 15 % de los registros como “con posibles indicios”. En latencias, se observaron 8,5 s en niños con dificultades frente a 4,2 s sin dificultades. A nivel de eventos, la matriz de confusión arrojó Sensibilidad = 0,65; Especificidad ≈ 0,82; VPP ≈ 0,70; VPN ≈ 0,78. Los niños mostraron buena aceptación del robot y mayor participación. Se concluye que la propuesta es viable como apoyo temprano en contextos con recursos limitados; no reemplaza la valoración clínica. Se señalan como líneas futuras ampliar la muestra, incorporar señales multimodales y optimizar despliegue.