APAO: 03
Los sistemas con reconocimiento de habla


Los sistemas de APAO más avanzados tecnológicamente incorporan módulos de reconocimiento automático del habla (RAH).

La aplicación de esta tecnología persigue dos objetivos fundamentales:

  1. Detectar automáticamente los errores de pronunciación.
  2. Evaluar automáticamente la pronunciación.

Los sistemas de APAO con estas prestaciones tecnológicas profundizan en el factor del feedback necesario en el proceso de aprendizaje, y son especialmente indicados para los contextos de autoaprendizaje.


1. El reconocimiento automático del habla en los sistemas APAO

La aplicación del RAH (cuyo funcionamiento básico se da por supuesto) en los sistemas de APAO genera dos particularidades: podría decirse que una de ellas es negativa y otra positiva.

  1. En primer lugar, las producciones que deben reconocerse no son "normales", sino propias de una interlengua. Además, esa interlengua varía en función de las distintas L1 y de los diferentes estadios de aprendizaje de los alumnos.

    Por tanto, los corpus de entrenamiento de estos sistemas deben ser específicos y pertencer a la interlengua para la que se pretenda aplicar el producto final.

  2. A pesar de esa primera dificultad (más bien especificidad), el reconocimiento en estos sistemas es mucho más simple, porque los enunciados producidos son casi siempre controlados: el alumno debe reproducir el modelo qe se le ha propuesto.

    Por tanto, el sistema no se centra en reconocer el enunciado (ya lo conoce), sino en la alineación de la señal del modelo y la del estudiante, y también con el texto del enunciado corespondiente (en caracteres alfabéticos o fonéticos).

    Este alineamiento no resulta fácil en la práctica, como puede imaginarse con este ejemplo de Talk to Me (tomado de CAZADE, 1999).


Talk to Me
Alineamiento texto-modelo-alumno


2. La detección automática de errores

Un primer aspecto que debe considerarse es el tecnológico, puesto que las técnicas de reconocimiento aún deben ser mejoradas. Pero ésta es una tarea para ingenieros e informáticos.

La primera cuestión que debe abordar la fonética es la relacionada con el corpus de entrenamiento del sistema. Tampoco es el momento de discutir cuáles son las características técnicas más convenientes para un corpus de estas características, sino de dejar claro que es el conocimiento fonético el que debe dirigir su diseño general.

Un producto muy interesante en este aspecto es el Speech Accent Archive desarrollado en la George Mason University, que presenta un mismo párrafo pronunciado por un gran número de hablantes de distintas lenguas. La web presenta una ficha completa de cada informante, la transcripción fonética de cada producción y un sencillo resumen de sus particularidades fonéticas más relevantes.

ACTIVIDAD
Obtenr información sobre corpus orales específicos para el ámbito APAO.
Algunas sugerencias: la web de ELRA; el proyecto ISLE, el proyecto ARNEFE; los corpus FRIDA, ELFA, JPU, TELC, Voice; los trabajos de MENZEL ET AL. (2000), GRANGER (2993)...
Discutir en común acerca de la información recogida.

BONAVENTURA-HERRON-MENZEL (2000) proponen un módulo de detección automática de errores basado en reglas. Estas reglas deben recoger los principales errores de pronunciación esperables en función de la L1. De esta manera, se orienta al sistema a reconocer determinados fenómenos, y se facilita además la tarea de proporcionar al usuario algunas explicaciones acerca de su error.

Los factores que inciden en la formulación de las reglas son múltiples:

Otros trabajos interesantes, pero que exceden tal vez el propósito de estos apuntes, son TRUONG ET AL. (2004) y TRUONG ET AL. (2005).



Talk to Me French
Reseñas Tell Me More French:
TELL ME MORE Homeschool Demo
  • El sistema detecta un problema en una palabra, es decir, una desviación excesiva modelo-usuario (puede ajustarse el grado de tolerancia).
  • Explica la desviación (con información gráfica acústica y articulatoria).
  • Permite practicar específicamente los sonidos más problemáticos.

El reconocimiento de la gama de productos Tell Me More es razonablemente bueno (WALTJIE 2002), aunque no dejan de producirse errores y alineamientos incorrectos, debidos muchas veces a las diferencias de velocidad de elocución entre el modelo y el usuario (REESER 2001, ZAHRA-ZAHRA 2005, MIURA 1997, ZHENG 2002).



3. La evaluación automática de la pronunciación

La evaluación automática de la pronunciación tiene dos objetivos principales:

  1. Proporcionar feedback sobre los progresos del usuario.
  2. Realizar pruebas de evaluación automatizadas (sin la participación del profesor).

Los aspectos que se suelen tener en cuenta en estos sistemas pueden ser segmentales, suprasegmentales y de fluidez. El procedimiento general se muestra en el siguiente esquema de LLISTERRI (2006), adaptado de WITT-YOUNG (2000):

Esquema del funcionamiento de los sistemas de evalución

LLISTERRI explica los pasos anteriores de la siguiente manera:

  1. Segmentación en unidades fonéticas y análisis acústico de la producción del estudiante: extracción de los parámetros utilizados por el sistema de reconocimiento.
  2. Comparación de las producciones de los estudiantes con modelos acústicos previamente almacenados.
  3. Extracción del grado de similaridad acústica entre el enunciado del estudiante y el enunciado previamente almacenado.
  4. Proceso ayudado por técnicas estadísticas que recurren a los textos de los enunciados utilizados en el modelo
  5. El error corresponde a una desviación respecto al modelo. La detección del error se lleva a cabo a partir de un nivel de exigencia o tolerancia previamente definido.
  6. El estudiante recibe información sobre su error.

Veamos algunos ejemplos de estos sistemas:

Bai&By Euskara
Módulo de entrenamiento fonético
Los algoritmos de reconocimiento son bastante antiguos (1999). Se está desarrollando una nueva versión del producto, con la colaboración de Aholab.


Tell Me More Spanish
Presenta una gráfica de puntuación, junto a otro tipo de informaciones ya señaladas.


FluSpeak
Módulo de evaluación de FluSpeak
FluSpeak evalúa la pronunciación de cada palabra y del enunciado completo. Evalúa la prosodia y también determinados segmentos.


Fluency
Módulo de identificación y corrección
Reseñas:
Fluency evalúa cada segmento y ofrece algunas pautas para una posible mejora en la pronunciación.


WebGrader
WebGrader realiza una valoración global de la pronunciación vía web.


Phone Pass Test (Ordinate)
Evalúa cuatro aspectos de la destreza oral, más una evaluación general, todo ello por teléfono.


EyeSpeak
Esquema de funcionamiento de EyeSpeak
Incorpora información articulatoria bastante sofisticada, al menos aparentemente.


ACTIVIDAD
Examinar los sistemas señalados. Leer las respectivas reseñas.
Discutir en común acerca de sus características, ventajas e inconvenientes.


3. Evaluación de estos sistemas

Como en el apartado anterior, no son muchos los estudios experimentales que evalúan estos sistemas:

También pueden encontrarse reflexiones de tipo más general sobre la utilización del RAH (ASR) en los sistemas de APAO:

ACTIVIDAD
Repasar la bibliografía señalada.
Localizar otros trabajos de interés.
Discutir en común acerca de la información conseguida.

Desde el punto de vista tecnológico, estos sistemas tienen aún importantes retos que superar:

Desde un punto de vista más didáctico, estos sistemas presentan también unas carencias bastante claras:

El conocimiento fonético debe ocuparse, al menos, de enfocar mejor estas cuestiones:



4. Mirando al futuro

4.1. El proyecto ARTUR: The ARticulation TUtoR

El objetivo del proyecto ARTUR es mejorar el aprendizaje individual de la pronunciación de L2 y de personas con discapacidad auditiva (y de pronunciación).

Cuando los sistemas como los que hemos examinado proporcionan algún tipo de resultado visual de la producción del sujeto, ese resultado debe ser interpretado (especialmente en el caso de los sordos). Eso puede hacerlo un profesor presencial, pero el objetivo es que lo haga el propio sistema.

ARTUR usa imágenes tridimensionales de la cara y de partes internas de la boca (lengua, paladar, mandíbula) para mostrar las diferencias entre la producción del usuario y la correcta.

Esquema de ARTUR

El sistema de ARTUR dispone de los siguientes módulos:

Información oficial:



volver al inicio
inicio
Alexander Iribar >> Fonética >> APAO
Comentarios: alex.iribar@deusto.es