Durante los últimos años, en el área de la Interacción Humano-Robot (HRI), ha sido creciente el estudio de la interacción en la que participan usuarios no entrenados tecnológicamente con sistemas robóticos. Para esta población de usuarios potenciales, es necesario utilizar técnicas de interacción que no precisen de conocimientos previos específicos. En este sentido, al usuario no se le debe presuponer ningún tipo de habi- lidad tecnológica: la única habilidad interactiva que se le puede presuponer al usuario es la que le permite interaccionar con otros humanos. Las técnicas desarrolladas y expuestas en este trabajo tienen como finalidad, por un lado que el sistema/robot se exprese de modo y manera que esos usuarios puedan comprenderlo, sin necesidad de hacer un esfuerzo extra con respecto a la interacción con personas. Por otro lado, que el sistema/robot interprete lo que esos usuarios expresen sin que tengan que hacerlo de modo distinto a como lo harían para comunicarse con otra persona. En definitiva, se persigue imitar a los seres humanos en su manera de interactuar.
En la presente se ha desarrollado y probado un sistema de interacción natural, que se ha denominado Robotics Dialog System (RDS). Permite una interacción entre el robot y el usuario usando los diversos canales de comunicación disponibles. El sistema completo consta de diversos módulos, que trabajando de una manera coordinada y complementaria, trata de alcanzar los objetivos de interacción natural deseados. RDS convive dentro de una arquitectura de control robótica y se comunica con el resto de sistemas que la componen, como son los sistemas de: toma de decisiones, secuenciación, comunicación, juegos, percepción sensoriales, expresión, etc.
La aportación de esta tesis al avance del estado del arte, se produce a dos nive- les. En un plano superior, se presenta el sistema de interacción humano-robot (RDS) mediante diálogos multimodales. En un plano inferior, en cada capítulo se describen
vlos componentes desarrollados expresamente para el sistema RDS, realizando contri- buciones al estado del arte en cada campo tratado. Previamente a cada aportación realizada, ha sido necesario integrar y/o implementar los avances acaecidos en su estado del arte hasta la fecha. La mayoría de estas contribuciones, se encuentran respaldadas mediante publicación en revistas científicas.
En el primer campo en el que se trabajó, y que ha ido evolucionando durante todo el proceso de investigación, fue en el campo del Procesamiento del Lenguaje Natural. Se ha analizado y experimentado en situaciones reales, los sistemas más importantes de reconocimiento de voz (ASR); posteriormente, algunos de ellos han sido integrados en el sistema RDS, mediante un sistema que trabaja concurrentemente con varios motores de ASR, con el doble objetivo de mejorar la precisión en el reconocimiento de voz y proporcionar varios métodos de entrada de información complementarios. Continuó la investigación, adaptando la interacción a los posibles tipos de micrófonos y entornos acústicos. Se complementó el sistema con la capacidad de reconocer voz en múltiples idiomas y de identificar al usuario por su tono de voz.
El siguiente campo de investigación tratado corresponde con la generación de lenguaje natural. El objetivo ha sido lograr un sistema de síntesis verbal con cierto grado de naturalidad e inteligibilidad, multilenguaje, con varios timbres de voz, y que expresase emociones. Se construyó un sistema modular capaz de integrar varios motores de síntesis de voz. Para dotar al sistema de cierta naturalidad y variabilidad expresiva, se incorporó un mecanismo de plantillas, que permite sintetizar voz con cierto grado de variabilidad léxica.
La gestión del diálogo constituyo el siguiente reto. Se analizaron los paradigmas existentes, y se escogió un gestor basado en huecos de información. El gestor escogido se amplió y modificó para potenciar la capacidad de adaptarse al usuario (median- te perfiles) y tener cierto conocimiento del mundo. Conjuntamente, se desarrollo el módulo de fusión multimodal, que se encarga de abstraer la multimodalidad al gestor del diálogo, es decir, de abstraer al gestor del diálogo de los canales por los que se recibe el mensaje comunicativo. Este módulo, surge como el resultado de adaptar la teoría de actos comunicativos en la interacción entre humanos a nuestro sistema de interacción. Su función es la de empaquetar la información sensorial emitida por los módulos sensoriales de RDS (siguiendo un algoritmo de detección de actos comunicativos, desarrollado para este trabajo), y entregarlos al gestor del diálogo en cada turno del diálogo.
Para potenciar la multimodalidad, se añadieron nuevos modos de entrada al sistema. El sistema de localización de usuarios, que en base al análisis de varias entradas de información, entre ellas la sonora, consigue identificar y localizar los usuarios que rodean al robot. La gestión de las emociones del robot y del usuario también forman parte de las modos de entradas del sistema, para ello, la emoción del robot se gene- ra mediante un módulo externo de toma de decisiones, mientras que la emoción del usuario es percibida mediante el análisis de las características sonoras de su voz y de las expresiones de su rostro. Por último, otras modos de entrada incorporados han sido la lectura de etiquetas de radio frecuencia, y la lectura de texto escrito.
Por otro lado, se desarrollaron nuevos modos expresivos o de salida. Entre ellos destacan la expresión de sonidos no-verbales generados en tiempo real, la capacidad de cantar, y de expresar ciertos gestos “de enganche” que ayudan a mejorar la naturalidad de la interacción: mirar al usuario, afirmaciones y negaciones con la cabeza, etc.