Los beneficios de interfaces de usuario manejadas por voz han sido apoyados por varios años. La voz es una forma natural de comunicación que es persuasiva, eficiente y puede ser usada a distancia. Sin embargo, la aceptación amplia de interfaces humano-computadora con voz es un hecho todavía por ocurrir. Tomando esto en cuenta, varios esfuerzos de investigación se han iniciado para enfocarse sobre la voz como un canal de entrada auxiliar en ambientes multimodales.
Un ejemplo de esto es el esfuerzo de combinar la voz con la manipulación directa. Las interfaces de manipulación directa, popularizadas por los ambientes gráficos de la Apple Macintosh y Microsoft Windows, están basados en el despliegue visual de objetos de interés y su selección apuntándole al objeto en vez de teclear [1]. Por simplicidad, el término reconocimiento de voz tratará con la identificación de palabras habladas, no necesariamente reconocimiento de lenguaje natural y el término manipulación directa tratará con entradas conducidas por el ratón. Mientras una interfaz conducida por un ratón por sí misma no es una interfaz de manipulación directa, hay suficiente traslape entre las dos en el contexto de la discusión.
Un modelo complementario de comportamiento ha sido propuesto sugiriendo que las interfaces de manipulación directa y reconocimiento de voz tienen recíprocas fortalezas y debilidades las cuales pueden ser incrementadas en una interfaz multimodal de usuario. Combinando las dos modalidades, las fortalezas de una pueden ser usadas para compensar las debilidades de la otra.
Teóricamente, la manipulación directa debería ser benéfica cuando los objetos a ser manipulados están sobre la pantalla, su identidad es conocida y no hay demasiados objetos para seleccionar. La interacción con lenguaje natural en computadoras ofrece beneficios potenciales cuando los usuarios necesitan identificar objetos, acciones y eventos de conjuntos demasiado grandes para ser desplegados y/o examinados individualmente y cuando los usuarios necesitan invocar acciones en tiempos futuros que deben ser descritos [2].
Puesto de otra manera, se cree que la mejor forma de usar las interfaces de manipulación directa es especificando acciones simples cuando todas las referencias son visibles y estas son limitadas en número. En contraste a esto, se cree que la mejor forma de usar las interfaces de reconocimiento de voz es al especificar acciones más complejas cuando las referencias son numerosas y no visibles. Estos atributos específicos son esquematizados en la siguiente tabla de abajo.
Manipulación DirectaReconocimiento de Voz
|
Acciones Simples |
Acciones Complejas |
|
Referencias Limitadas |
Referencias Múltiples |
|
Referencias Visibles |
Referencias no Visibles |
Aplicaciones Propuestas para la Manipulación Directa y Voz
Para entender como incrementar el poder de una ventaja, los argumentos anecdóticos necesitan ser evaluados científicamente. Más trabajo teórico es necesario para ayudar a predecir la operación en ambientes multimodales [3], [4], [5]. El enfoque de este artículo es por lo tanto proponer un marco para empíricamente evaluar los tipos de tareas que pudieran beneficiarse de una interfaz multimodal. Antes de explorar este tópico, una vista global sobre la tecnología de reconocimiento de voz es dada. Esto es seguido por un trabajo teórico sobre integración de tareas. El trabajo relacionado sobre interfaces de voz multimodal también es cubierto. Finalmente, un marco para evaluar los tipos de tareas de entrada que pudieran beneficiarse de los ambientes multimodales es presentado.
El primer sistema de reconocimiento de voz fue desarrollado en 1952 sobre una computadora analógica usando voz discretizada para reconocer los dígitos del 0 al 9 con un algoritmo de plantilla de concordancia dependiente de la persona que habla [6]. Una exactitud de 98% en el reconocimiento fue reportada. Mas tarde en esa misma década, un sistema con atributos similares fue desarrollado que reconoció consonantes y vocales [7]. En los años sesenta la investigación en reconocimiento de voz se movió a las computadoras digitales. Esta plataforma proporcionó las bases para la tecnología de reconocimiento de voz como se conoce hoy en día [8].
A pesar del rápido progreso inicial, las limitaciones en arquitecturas de computadoras previno cualquier desarrollo comercial de sistemas de reconocimiento de voz. Note que no obstante la taza de transferencia de datos de voz es solamente alrededor de 50 bits por segundo, los requerimientos computacionales asociados en la extracción de esta información son enormes. En la última década, sin embargo, un número de sistemas comerciales han sido exitosamente desarrollados [9]. A pesar de estos avances, verdadero procesamiento de voz espera aun varios años por venir. Por lo tanto, un sistema exitoso conducido por voz debe permitir tener en cuenta las limitaciones de la tecnología actual. Estas limitaciones incluyen la dependencia de la persona que habla, la continuidad de voz y el tamaño del vocabulario.
Los sistemas independientes de la persona que habla pueden reconocer voz de cualquier persona. Los sistemas dependientes de la persona que habla deben ser entrenados para cada usuario individual, pero típicamente tienen mas altas tasas de exactitud. Los sistemas adaptables a la persona que habla, un enfoque híbrido, inicia con plantillas independientes de la persona que habla y las adapta a usuarios específicos sobre el tiempo sin entrenamiento explícito. Los sistemas de voz continuos pueden reconocer palabras habladas en un ritmo natural mientras que los sistemas de palabras aisladas requieren de una pausa deliberada entre cada palabra. No obstante más deseable, la voz continua es mas difícil de procesar por la dificultad en detectar los límites de cada palabra. El tamaño del vocabulario puede variar de 20 palabras a más de 40,000 palabras. Los grandes vocabularios causan dificultades en mantener exactitud, pero los pequeños pueden imponer restricciones no deseadas sobre la naturalidad de la comunicación. A menudo el vocabulario debe ser restringido por reglas gramaticales las cuales identifican como las palabras pueden ser habladas en el contexto. Un repaso mas completo de esta materia puede ser encontrado fácilmente [10].
Junto con las características técnicas de sistemas de reconocimiento de voz, es importante entender los factores humanos de voz como una modalidad de la interfaz. La más significante es que la voz es temporal. Una vez pronunciada la información, ya no se dispone mas de ella. Esto puede representar una carga adicional para la memoria del usuario y limita severamente la habilidad de repasar, revisar y la información de referencias cruzadas. La voz puede ser usada a distancia lo cual la hace ideal para situaciones de manos y ojos ocupados. Es omnidireccional y por lo tanto puede comunicarse a múltiples usuarios. Sin embargo, esto tiene implicaciones relacionadas a la privacidad y a la seguridad. Finalmente, más que otras modalidades, hay la posibilidad de antropomorfismo cuando se usa el reconocimiento de voz. Ha sido documentado que los usuarios tienden a sobrestimar las capacidades de un sistema si una interfaz de voz es usada y que los usuarios son más tentados a tratar el dispositivo como otra persona [11].
Los dispositivos de entrada como la voz y el ratón tienen significativamente diferentes estructuras de control. El siguiente estudio sugiere que este puede tener un impacto medible sobre el desempeño basado sobre si la estructura del control de cada dispositivo iguala la estructura perceptual de la tarea de entrada.
En este estudio, los investigadores probaron la hipótesis que el desempeño mejora cuando la estructura perceptual de la tarea iguala la estructura del control del dispositivo de entrada [12]. La estructura perceptual es definida como las dimensiones de entrada que son percibidas por el usuario. Un ratón de dos dimensiones y un dispositivo seguidor tridimensional fueron seleccionados como dispositivos de entrada. Dos tareas de entrada con tres entradas cada una fueron evaluadas. En la primer tarea, las entradas fueron integrales (posición x, posición y y tamaño) y en el otro, las entradas fueron separables (posición x, (posición x, posición y y color).
El sentido común pudiera decir que un dispositivo seguidor tridimensional es un superconjunto lógico de un ratón de dos dimensiones y por lo tanto siempre tan bueno y algunas veces mejor que un ratón. En vez de eso, los resultados mostraron que el seguidor operó mejor cuando las tres entradas fueron perceptualmente integrales, mientras que el ratón operó mejor cuando las entradas fueron separables.
La teoría de las estructuras perceptuales, integrales y separables, fue originalmente desarrolladas por Garner [13], [14]. La estructura tiene que ver con como las dimensiones de una tarea de entrada se combinan perceptualmente. La base para una posición x, posición y y tamaño de un objeto siendo integral y la posición x, posición y y color siendo separables fueron tomados en este trabajo.
Esta teoría fue extendida con la hipótesis de que la estructura perceptual de una tarea de entrada es la clave para la operación de dispositivos de entrada multidimensionales sobre tareas multidimensionales en un ambiente unimodal. Una área apropiada para investigación adicional es evaluar la operación de tareas con entradas multidimensionales integrales y separables en ambientes multimodales, donde dos o más modalidades son usadas en concierto. La siguiente sección incluye ejemplos de trabajo relacionado en el área.
Integración de Tareas Multidimensionales y Multimodales
Un número de observaciones fueron hechas por Oviatt y Olsen con respecto a como la gente integra entradas de diferentes dispositivos en ambientes multimodales [15]. A los participantes se les pidió operar datos de entradas de tareas usando una voz multimodal y una interfaz de usuario para escritura manuscrita. Durante el experimento, los participantes estuvieron libres de usar cualquier modalidad que desearan. Fue notado que el factor de mayor influencia al predecir el uso de voz integrada multimodal y escritura manuscrita fue la funcionalidad contrastante. En otras palabras, los participantes fueron más capaces de integrar las dos modalidades en una manera contrastante para designar un cambio en el contexto o funcionalidad, tal como la entrada original contra la entrada corregida, o los datos contra comandos.
Un proyecto por Cohen usó voz y manipulación directa para desarrollar una interfaz de usuario integrada [16]. Aquí, la meta no fue simplemente proporcionar dos o más modalidades separadas con la misma funcionalidad, sino integrarlas con la misma funcionalidad para producir una interfaz mas productiva. Por ejemplo, junto con las operaciones unimodales tradicionales tales como "apuntar y dar clic", ahí puede ser "apuntar y hablar." Su propósito fue usar las fortalezas de una modalidad para sobreponer las debilidades de la otra.
Considerando este objetivo, un sistema multimodal prototipo fue desarrollado el cual usó una interfaz de lenguaje natural y de manipulación directa integrada. Varios ejemplos fueron citados donde la se pensó que las entradas combinadas de lenguaje y ratón eran más productivas que cualquier modalidad por separado. Por ejemplo, el lenguaje natural permite el uso de referencias anafóricas (pronombres). Sin embargo, el significado exacto de estas referencias puede ser ambiguo. Cuando tales referencias no fuero claras, el prototipo uso iconos para presentar explícitamente lo que se creyó ser las referencias válidas, dado el contexto actual. La combinación de referencia anafórica con el apuntar usó la naturaleza sin ambigüedad de la entrada del ratón para sobreponer este aspecto de posible error del procesamiento del lenguaje natural.
Un segundo ejemplo de integración introducido por Cohen apareció con el uso del tiempo. Uno pudiera asumir que la manipulación directa podría ser mejor que la voz para tratar con tiempo a través del uso de la barra deslizadora como una formadora gráfica de una línea del tiempo. Sin embargo, este no es siempre el caso. El encontrar eventos en el tiempo con un deslizador puede ser un proceso de búsqueda lineal extremadamente lento, especialmente si hay un rango grande de intervalo de tiempo que recorrer. Si la granularidad del deslizador es demasiada grande, seleccionar el evento en el tiempo exacto puede no ser posible. También los deslizadores típicamente permiten la selección de solo un punto en el tiempo. Para sobreponer estas limitaciones, el prototipo usó lenguaje natural para describir los tiempos de interés. El prototipo entonces compuso un menú de todos los puntos del tiempo seleccionados, con el deslizador puesto en el primero que fue encontrado. Aquí, el lenguaje natural fue usado para sobreponer una debilidad de manipulación directa- la selección de objetos desconocidos (en este caso puntos en el tiempo) de un conjunto grande.
El uso del ratón para eliminar la ambigüedad de la entrada del contexto de voz también ha sido explorado por la compañía Boeing para el Sistema de Control y Alerta de Vuelos (Airborne Warning and Control System, AWACS) (http://www.being.com/dsg.awacs.html) [17]. Notando que la comunicación humana es multidimensional y que las conversaciones incluyen más que palabras habladas, ellos usaron una combinación de datos gráficos y verbales donde uno completa o elimina la ambigüedad del otro. Dentro de este marco de referencia, los operadores podrían hacer requerimientos hablando comandos mientras que simultáneamente seleccionan objetos gráfico con un ratón para determinar el contexto de estos comandos.
Un enfoque similar fue tomado mientras se integró una interfaz de lenguaje natural con una herramienta de planeación de prueba de alerta de vuelos gráfica en sus etapas iniciales en el Laboratorio de Investigación Naval (http://www.nrl.navy.mil) [18]. El uso de lenguaje natural proporcionó poder expresivo sobre y más allá de lo que es posible con la manipulación directa. Por ejemplo, usando voz, un usuario pudo especificar un comando, una referencia y un destino, tal como "Mover el atacante 14 a la estación 5". Alternativamente, usando una entrada multimodal, un usuario pudo especificar el comando y la referencia solamente como "Mover el atacante 14". El destino pudo haber sido seleccionado entonces usando el ratón al apuntar sobre una posición de un mapa gráfico.
Siguiendo guías intuitivas, estos esfuerzos parecieron integrar voz en tareas de entrada multimodales y multidimensionales cuando los atributos de entrada fueron perceptualmente separables. Ejemplos de esto son cuando hubo un cambio en el contexto o función, tal como una identificación de referencia contra datos de entrada, descripción contra examen en el contexto de tiempo, y datos de entrada contra comandos. Esto sugiere que en una evaluación empírica, el desempeño puede mejorar cuando los atributos perceptualmente separables son entradas usando diferentes modalidades.
Estudio de Factibilidad
El trabajo preliminar por el autor incluye un estudio de factibilidad de colección de datos conducido por voz [19]. El objetivo fue determinar la factibilidad de usar tecnología de reconocimiento de voz que permita la colección de datos sin el uso de las manos ni de la vista relacionado a estudios de toxicología. Un sistema prototipo fue desarrollado para facilitar la colección de datos usando solo entrada de voz y respuestas de voz generadas por computadora. El prototipo soportó voz continua y dependencia del que habla con un vocabulario de 900 palabras que se basó en la Tabla de Códigos de Patología [20].
Después de probar el sistema prototipo, los resultados fueron evaluados para determinar la factibilidad de usar voz en esta área de aplicación. La taza de exactitud global para el reconocimiento de voz fue de 97%. Se necesitó trabajo adicional para minimizar los requerimientos de entrenamiento y mejorar la retroalimentación audible. Sin embargo, se concluyó que esta arquitectura pudo ser considerada una alternativa viable para la colección de datos en estudios de toxicología con razonable exactitud de reconocimiento.
Trabajo Futuro
El software prototipo ha sido modificado para soportar un estudio experimental de integración de tarea usando entradas de voz y de ratón. El dominio de aplicación para el prototipo es la colección de datos histopatológicos en estudios de toxicología animal. Este tipo de estudio es usado para evaluar los efectos de dosis bajas a largo plazo de substancias potencialmente tóxicas, incluyendo las cancerígenas. Esta basado en un vocabulario de tamaño moderado, especializado y altamente estructurado que incluye varias restricciones como mantener ocupadas las manos y la vista. Estas y otras características hacen de esta una tarea típica de colección de datos, similar a aquellas requeridas en investigación biomédica y pruebas clínicas. Las tareas de entrada principalmente involucran identificación de referencia con pocas declarativas o entradas de datos espaciales requeridos, los cuales deberían minimizar cualquier favoritismo prefabricado por cualquier modalidad. También para remover favoritismo, las restricciones de manos y vista ocupadas fueron removidas.
Para eliminar requerimientos de entrenamiento, los nuevos prototipos usan el PE500 para el reconocimiento de voz (de la Compañía Speech Systems de Boulder, CO, USA. http://www.speechsys.com). Este soporta independencia del que habla, reconocimiento continuo de vocabularios restringidos gramaticalmente. El prototipo original usó cualquiera entrada de ratón o de voz para la colección de datos, pero no ambos al mismo tiempo. Esto es para permitir la comparación de tareas de entrada multimodal y multidimensional usando voz y el ratón en coordinación.
Un estudio experimental está en camino para evaluar el desempeño, exactitud y el grado de aceptación de usar voz y la manipulación directa para varias tareas de entrada multidimensionales en el contexto de estudios de toxicología animal. Alrededor de 40 veterinarios patologistas, toxicologistas y residentes participarán en el estudio.
Basado en la teoría de estructuras perceptuales, la literatura reporta que el desempeño de tareas de entrada unimodales y multidimensionales es afectado si las entradas son percibidas como integrales o separables. Adicionalmente, los usuarios son mas inclinados a cambiar de una modalidad a otra cuando hay un cambio en funcionalidad o contexto. El objetivo de este estudio es evaluar empíricamente dos preguntas. La primera es si la velocidad, exactitud y aceptación de entradas multidimensionales y multimodales incrementarán cuando los atributos de la tarea sean percibidos como integrales o separables. El segundo es determinar si las tareas de entrada integrales o separables usando ratón y voz operan mejor que la entrada de ratón únicamente o voz únicamente.
Conclusión
Un modelo de comportamiento complementario ha sido propuesto basado en argumentos que las interfaces de manipulación directa y reconocimiento de voz tienen recíprocas fortalezas y debilidades. Esto sugiere que el desempeño y aceptación de la interfaz puede incrementarse adoptando un enfoque multi-modal que combine voz y manipulación directa. Más trabajo teórico es necesario para entender como amplificar esta ventaja. En este artículo, un marco de referencia fue presentado para evaluar experimentalmente los tipos de tareas que pudieran beneficiarse de una interfaz multi-modal.
Referencias
Información sobre el Autor
Tim Finin (finin@cs.umbc.edu, http://www.cs.umbc.edu/~finin) es un Profesor de Ciencias de la Computadora e Ingeniería Eléctrica en la Universidad del Condado de Maryland, Baltimore. El ha tenido más de 25 años de experiencia en la aplicación de la Inteligencia Artificial a problemas de base de datos y sistemas de bases de conocimientos, sistemas de información inteligentes, sistemas expertos, procesamiento de lenguaje natural, interfaces inteligentes y robótica. Antes de unirse a la Universidad de Maryland, él fue Director Técnico del Centro de Tecnología de la Información Avanzada en Unysis, un miembro del profesorado de la Universidad de Pennsylvania y un investigador staff del Laboratorio de Inteligencia Artificial en el MIT. Él posee el grado de licenciatura en ciencias de Ingeniería Eléctrica del MIT y el PhD en Ciencias Computacionales de la Universidad de Illinois.