Resumen:
DOCUMENT IN THE PROCESS OF INTELLECTUAL PROPERTY. The project develops a gesture and emotion synchronization system for a robotic bust designed for storytelling aimed at children. This system seeks to overcome current limitations in human-robot interaction by enhancing the robot's ability to capture attention and convey emotions in a natural and effective way. A modular design was employed, including an emotional analysis module based on natural language processing (NLP), voice generation using Azure TTS with SSML for prosody adjustments, and predefined gesture libraries to synchronize movements with the speech. The tests were conducted with 10 eighth-grade students, evaluating attention capture and synchronization perception. The results showed that 100% of participants enjoyed the storytelling, 80% maintained constant visual contact with the robot, and 90% perceived the gestures as coherent with the narrated emotions. However, 50% indicated that the synchronization of the beak with the audio was partial. It is concluded that the system achieves immersive and effective interaction, though there are opportunities to improve lip sync precision and the calibration of certain gestures. This work lays a foundation for expanding the capabilities of social robots in educational and entertainment contexts.
Keywords: Human-Robot Interaction, Narrative, Emotional Technology, Expressiveness
Descripción:
DOCUMENTO EN PROCESO DE PROPIEDAD INTELECTUAL. El proyecto desarrolla un sistema de sincronización de gestos y emociones para un busto robótico orientado a la narración de cuentos para niños. Este sistema busca superar las limitaciones actuales en la interacción humano-robot, mejorando la capacidad del robot para captar la atención y transmitir emociones de forma natural y efectiva. Se utilizó un diseño modular que incluyó un módulo de análisis emocional basado en procesamiento de lenguaje natural (NLP), generación de voz mediante Azure TTS con SSML para ajustes de prosodia, y bibliotecas de gestos predefinidos para sincronizar movimientos con el discurso. Las pruebas fueron realizadas con 10 estudiantes de octavo grado, evaluando la captura de atención y la percepción de sincronización. Los resultados mostraron que el 100% de los participantes disfrutó la narración, mientras que el 80% mantuvo contacto visual constante con el robot y el 90% percibió los gestos como coherentes con las emociones narradas. Sin embargo, el 50% indicó que la sincronización del pico con el audio era parcial. Se concluye que el sistema logra una interacción inmersiva y efectiva, aunque presenta oportunidades de mejora en la precisión del lip sync y la calibración de ciertos gestos. Este trabajo establece una base para ampliar las capacidades de robots sociales en contextos educativos y de entretenimiento