La interacción humano robot por voz está basada en algunos pilares básicos como son:
– El reconocimiento automático de voz.
– La síntesis automática de voz.
– La localización de la fuente sonora.
– La identificación del hablante.
– El gestor de diálogos (manager).
Actualmente estamos usando un reconocedor de voz basado en gramáticas (Loquendo) y otro de lenguaje abierto (Google ASR). Sobre ellos hemos desarrollado “habilidades” capaces de trabajar de manera coordinada con la Arquitectura de Control AD. Es de vital importancia para la interacción por voz el desarrollo de un sistema de reconocimiento: preciso, de respuesta rápida y capaz de trabajar en ambientes con ruido.
El sistema de síntesis de voz, está basado en una habilidad capaz de gestionar locuciones,siendo capaz de mantener una cola en memoria, secuestrar la voz, liberarla, callarla etc. Para ello nos hemos basado en tres sistemas: Loquendo, Festival y Google TTS. Mediante estos tres sistemas somos capaces de hablar con emociones, con control de velocidad, con gestos sonoros (como risas, silbidos, lloros, etc) y en mas de 35 idiomas diferentes.
En cuanto al sistema de diálogo, en la actualidad estamos trabajando con un sistema de huecos de información (VoiceXML) pero estamos en estudio con nuevos sistemas, por ejemplo basados en modelos estadísticos como pueden ser los: POMDP.
Recientes campos de desarrollo e investigación abiertos nos llevan a la Generación de Lenguaje Natural basándonos en gramáticas o templetes.