APAO: 03

Los sistemas con reconocimiento de habla

Los sistemas de APAO más avanzados tecnológicamente incorporan módulos de reconocimiento automático del habla (RAH).

La aplicación de esta tecnología persigue dos objetivos fundamentales:

Detectar automáticamente los errores de pronunciación.
Evaluar automáticamente la pronunciación.

Los sistemas de APAO con estas prestaciones tecnológicas profundizan en el factor del feedback necesario en el proceso de aprendizaje, y son especialmente indicados para los contextos de autoaprendizaje.

1. El reconocimiento automático del habla en los sistemas APAO

La aplicación del RAH (cuyo funcionamiento básico se da por supuesto) en los sistemas de APAO genera dos particularidades: podría decirse que una de ellas es negativa y otra positiva.

En primer lugar, las producciones que deben reconocerse no son "normales", sino propias de una interlengua. Además, esa interlengua varía en función de las distintas L1 y de los diferentes estadios de aprendizaje de los alumnos.

Por tanto, los corpus de entrenamiento de estos sistemas deben ser específicos y pertencer a la interlengua para la que se pretenda aplicar el producto final.
A pesar de esa primera dificultad (más bien especificidad), el reconocimiento en estos sistemas es mucho más simple, porque los enunciados producidos son casi siempre controlados: el alumno debe reproducir el modelo qe se le ha propuesto.

Por tanto, el sistema no se centra en reconocer el enunciado (ya lo conoce), sino en la alineación de la señal del modelo y la del estudiante, y también con el texto del enunciado corespondiente (en caracteres alfabéticos o fonéticos).

Este alineamiento no resulta fácil en la práctica, como puede imaginarse con este ejemplo de Talk to Me (tomado de CAZADE, 1999).

Talk to Me

2. La detección automática de errores

Un primer aspecto que debe considerarse es el tecnológico, puesto que las técnicas de reconocimiento aún deben ser mejoradas. Pero ésta es una tarea para ingenieros e informáticos.

La primera cuestión que debe abordar la fonética es la relacionada con el corpus de entrenamiento del sistema. Tampoco es el momento de discutir cuáles son las características técnicas más convenientes para un corpus de estas características, sino de dejar claro que es el conocimiento fonético el que debe dirigir su diseño general.

Un producto muy interesante en este aspecto es el Speech Accent Archive desarrollado en la George Mason University, que presenta un mismo párrafo pronunciado por un gran número de hablantes de distintas lenguas. La web presenta una ficha completa de cada informante, la transcripción fonética de cada producción y un sencillo resumen de sus particularidades fonéticas más relevantes.

ACTIVIDAD

Obtenr información sobre corpus orales específicos para el ámbito APAO.

Algunas sugerencias: la web de ELRA; el proyecto ISLE, el proyecto ARNEFE; los corpus FRIDA, ELFA, JPU, TELC, Voice; los trabajos de MENZEL ET AL. (2000), GRANGER (2993)...

Discutir en común acerca de la información recogida.

BONAVENTURA-HERRON-MENZEL (2000) proponen un módulo de detección automática de errores basado en reglas. Estas reglas deben recoger los principales errores de pronunciación esperables en función de la L1. De esta manera, se orienta al sistema a reconocer determinados fenómenos, y se facilita además la tarea de proporcionar al usuario algunas explicaciones acerca de su error.

Los factores que inciden en la formulación de las reglas son múltiples:

Las relaciones sonido-grafía de la L1.
Las generalizaciones excesivas en la L2: de las correspondencias ortográficas, de las reglas fonotácticas, etc.
La interferencia fonológica de la L1.

Otros trabajos interesantes, pero que exceden tal vez el propósito de estos apuntes, son TRUONG ET AL. (2004) y TRUONG ET AL. (2005).

Talk to Me French

TalK to Me French
Auralog.

Reseñas Tell Me More French:

TELL ME MORE Homeschool Demo

El sistema detecta un problema en una palabra, es decir, una desviación excesiva modelo-usuario (puede ajustarse el grado de tolerancia).
Explica la desviación (con información gráfica acústica y articulatoria).
Permite practicar específicamente los sonidos más problemáticos.

El reconocimiento de la gama de productos Tell Me More es razonablemente bueno (WALTJIE 2002), aunque no dejan de producirse errores y alineamientos incorrectos, debidos muchas veces a las diferencias de velocidad de elocución entre el modelo y el usuario (REESER 2001, ZAHRA-ZAHRA 2005, MIURA 1997, ZHENG 2002).

3. La evaluación automática de la pronunciación

La evaluación automática de la pronunciación tiene dos objetivos principales:

Proporcionar feedback sobre los progresos del usuario.
Realizar pruebas de evaluación automatizadas (sin la participación del profesor).

Los aspectos que se suelen tener en cuenta en estos sistemas pueden ser segmentales, suprasegmentales y de fluidez. El procedimiento general se muestra en el siguiente esquema de LLISTERRI (2006), adaptado de WITT-YOUNG (2000):

Esquema del funcionamiento de los sistemas de evalución

LLISTERRI explica los pasos anteriores de la siguiente manera:

Segmentación en unidades fonéticas y análisis acústico de la producción del estudiante: extracción de los parámetros utilizados por el sistema de reconocimiento.
Comparación de las producciones de los estudiantes con modelos acústicos previamente almacenados.
Extracción del grado de similaridad acústica entre el enunciado del estudiante y el enunciado previamente almacenado.
Proceso ayudado por técnicas estadísticas que recurren a los textos de los enunciados utilizados en el modelo
El error corresponde a una desviación respecto al modelo. La detección del error se lleva a cabo a partir de un nivel de exigencia o tolerancia previamente definido.
El estudiante recibe información sobre su error.

Veamos algunos ejemplos de estos sistemas:

Bai&By Euskara

Vídeo demo

Los algoritmos de reconocimiento son bastante antiguos (1999). Se está desarrollando una nueva versión del producto, con la colaboración de Aholab.

Tell Me More Spanish

Reseña: LAFFORD (2004)

Presenta una gráfica de puntuación, junto a otro tipo de informaciones ya señaladas.

FluSpeak

Reseña: KIM (2006)
Trial Version Download

FluSpeak evalúa la pronunciación de cada palabra y del enunciado completo. Evalúa la prosodia y también determinados segmentos.

Fluency

Reseñas:

Fluency evalúa cada segmento y ofrece algunas pautas para una posible mejora en la pronunciación.

WebGrader

Reseña: NEUMEYER ET AL. (1998)
Vídeo demo

WebGrader realiza una valoración global de la pronunciación vía web.

Phone Pass Test (Ordinate)

Reseña: HINCKS (2001)

Evalúa cuatro aspectos de la destreza oral, más una evaluación general, todo ello por teléfono.

EyeSpeak

DEMO

Incorpora información articulatoria bastante sofisticada, al menos aparentemente.

ACTIVIDAD

Examinar los sistemas señalados. Leer las respectivas reseñas.

Discutir en común acerca de sus características, ventajas e inconvenientes.

3. Evaluación de estos sistemas

Como en el apartado anterior, no son muchos los estudios experimentales que evalúan estos sistemas:

PRECODA ET AL. (2000)
Analizan los resultados de la utilización del programa FreshTalk por un grupo de 45 estudiantes durante tres semanas. Observaron una ligera mejora en una prueba objetiva con respecto a un grupo de control.
MAYFIELD-TOMOKIYO ET AL. (2000)
Analizan la utilización del Fluency para la práctica de las fricativas interdentales inglesas. Los estudiantes redujeron sus errores en un 47%, mientras que el grupo de control lo hizo en un 37%.
HINCKS (2002) / HINCKS (2003)
Analiza la utilización del Talk To Me por un grupo de 9 estudiantes durante 12'5 horas. No encuentra diferencias signitivas con respecto al grupo de control, aunque parece advertir que el programa funciona mejor con los estudiantes de menor nivel.

También pueden encontrarse reflexiones de tipo más general sobre la utilización del RAH (ASR) en los sistemas de APAO:

ACTIVIDAD

Repasar la bibliografía señalada.

Localizar otros trabajos de interés.

Discutir en común acerca de la información conseguida.

Desde el punto de vista tecnológico, estos sistemas tienen aún importantes retos que superar:

Enlazar más estrechamente la evaluación con el reconocimiento de errores.
Conseguir un reconocimiento de habla contínua (o, al menos, semi-dirigida).
Conseguir un reconocimiento independiente del locutor.
Aumentar los corpus especializados.

Desde un punto de vista más didáctico, estos sistemas presentan también unas carencias bastante claras:

No es fácil encajar las tareas de pronunciación (al menos con las actuales limitaciones técnicas) en un proceso de enseñanza-aprendizaje basado en enfoques comunicativos y por tareas. Los productos actuales no garantizan un aprendizaje autónomo y significativo de la pronunciación.
El proceso de corrección debe ser más explícito. Hoy en día, es excesivamente alta la probabilidad de que el alumno no entienda adecuadamente ni el error detectado ni cómo debe corregirlo.

El conocimiento fonético debe ocuparse, al menos, de enfocar mejor estas cuestiones:

La jerarquización de los errores. Los criterios para dicha jerarquización pueden ser múltiples: la inteligibilidad, el peso sociolingüístico, la complejidad articulatoria, etc.
El tratamiento de la variación, la compensación articulatoria, la coarticulación, etc.
El establecimineto de estrategias de corrección de errores fonética y fonológicamente motivadas.

4. Mirando al futuro

4.1. El proyecto ARTUR: The ARticulation TUtoR

El objetivo del proyecto ARTUR es mejorar el aprendizaje individual de la pronunciación de L2 y de personas con discapacidad auditiva (y de pronunciación).

Cuando los sistemas como los que hemos examinado proporcionan algún tipo de resultado visual de la producción del sujeto, ese resultado debe ser interpretado (especialmente en el caso de los sordos). Eso puede hacerlo un profesor presencial, pero el objetivo es que lo haga el propio sistema.

ARTUR usa imágenes tridimensionales de la cara y de partes internas de la boca (lengua, paladar, mandíbula) para mostrar las diferencias entre la producción del usuario y la correcta.

El sistema de ARTUR dispone de los siguientes módulos:

Audio-visual detection of mispronounced speech: detección audiovisual del habla: detectar desviaciónes entre la emisión del usuario y la correcta. (Se hace con técnicas RAH de alineamiento.) Incluye la grabación visual de la cara.
Maker-less tracking of facial features from video: extracción automática de rasgos faciales. (Técnica similar a la de RAH.)
Articulatory Inversion: a partir de los parámetros faciales y de la señal acústica, se recrea los movimientos faciales y del tracto vocálico.
Articulatory Model: se sintetiza la articulación del usuario (y la correcta) usando dos modelos de cara y de tracto vocálico desarrollados en KTH (basados en datos de MRI y EMA).
Adaptation of the model to the user: la fase anterior requiere que los modelos anteriores se adapten a las características de cada usuario.
Feedback display: representación de la emisión del usuario. Es vital que esto se haga de una manera comprensible por el usuario. El primer paso del proyecto ha utilizado un "Mago de Oz".

Información oficial:

ARTUR es un proyecto de investigación desarrollado por un equipo del TMH (Department of Speech, Music and Hearing), de la School of Computer Science and Communication, perteneciente al KTH (Royal Institute of Technology, Estocolomo, Suecia), dirigido por Olov Engwall, experto en modelización articulatoria.
Web de proyecto: http://www.speech.kth.se/multimodal/ARTUR/index.html.
Vídeo demo.

inicio

Alexander Iribar >> Fonética >> APAO

Comentarios: alex.iribar@deusto.es