APAO: 03 |
Los sistemas con reconocimiento de habla |
Los sistemas de APAO más avanzados tecnológicamente incorporan módulos de reconocimiento automático del habla (RAH).
La aplicación de esta tecnología persigue dos objetivos fundamentales:
Los sistemas de APAO con estas prestaciones tecnológicas profundizan en el factor del feedback necesario en el proceso de aprendizaje, y son especialmente indicados para los contextos de autoaprendizaje.
La aplicación del RAH (cuyo funcionamiento básico se da por supuesto) en los sistemas de APAO genera dos particularidades: podría decirse que una de ellas es negativa y otra positiva.
En primer lugar, las producciones que deben reconocerse no son "normales", sino propias de una interlengua. Además, esa interlengua varía en función de las distintas L1 y de los diferentes estadios de aprendizaje de los alumnos.
Por tanto, los corpus de entrenamiento de estos sistemas deben ser específicos y pertencer a la interlengua para la que se pretenda aplicar el producto final.
A pesar de esa primera dificultad (más bien especificidad), el reconocimiento en estos sistemas es mucho más simple, porque los enunciados producidos son casi siempre controlados: el alumno debe reproducir el modelo qe se le ha propuesto.
Por tanto, el sistema no se centra en reconocer el enunciado (ya lo conoce), sino en la alineación de la señal del modelo y la del estudiante, y también con el texto del enunciado corespondiente (en caracteres alfabéticos o fonéticos).
Este alineamiento no resulta fácil en la práctica, como puede imaginarse con este ejemplo de Talk to Me (tomado de CAZADE, 1999).
Talk to Me |
Un primer aspecto que debe considerarse es el tecnológico, puesto que las técnicas de reconocimiento aún deben ser mejoradas. Pero ésta es una tarea para ingenieros e informáticos.
La primera cuestión que debe abordar la fonética es la relacionada con el corpus de entrenamiento del sistema. Tampoco es el momento de discutir cuáles son las características técnicas más convenientes para un corpus de estas características, sino de dejar claro que es el conocimiento fonético el que debe dirigir su diseño general.
Un producto muy interesante en este aspecto es el Speech Accent Archive desarrollado en la George Mason University, que presenta un mismo párrafo pronunciado por un gran número de hablantes de distintas lenguas. La web presenta una ficha completa de cada informante, la transcripción fonética de cada producción y un sencillo resumen de sus particularidades fonéticas más relevantes.
ACTIVIDAD |
Obtenr información sobre corpus orales específicos para el ámbito APAO. |
Algunas sugerencias: la web de ELRA; el proyecto ISLE, el proyecto ARNEFE; los corpus FRIDA, ELFA, JPU, TELC, Voice; los trabajos de MENZEL ET AL. (2000), GRANGER (2993)... |
Discutir en común acerca de la información recogida. |
BONAVENTURA-HERRON-MENZEL (2000) proponen un módulo de detección automática de errores basado en reglas. Estas reglas deben recoger los principales errores de pronunciación esperables en función de la L1. De esta manera, se orienta al sistema a reconocer determinados fenómenos, y se facilita además la tarea de proporcionar al usuario algunas explicaciones acerca de su error.
Los factores que inciden en la formulación de las reglas son múltiples:
Otros trabajos interesantes, pero que exceden tal vez el propósito de estos apuntes, son TRUONG ET AL. (2004) y TRUONG ET AL. (2005).
Talk to Me French |
TalK to Me French Auralog. |
Reseñas Tell Me More French: |
TELL ME MORE Homeschool Demo |
|
El reconocimiento de la gama de productos Tell Me More es razonablemente bueno (WALTJIE 2002), aunque no dejan de producirse errores y alineamientos incorrectos, debidos muchas veces a las diferencias de velocidad de elocución entre el modelo y el usuario (REESER 2001, ZAHRA-ZAHRA 2005, MIURA 1997, ZHENG 2002).
La evaluación automática de la pronunciación tiene dos objetivos principales:
Los aspectos que se suelen tener en cuenta en estos sistemas pueden ser segmentales, suprasegmentales y de fluidez. El procedimiento general se muestra en el siguiente esquema de LLISTERRI (2006), adaptado de WITT-YOUNG (2000):
LLISTERRI explica los pasos anteriores de la siguiente manera:
Veamos algunos ejemplos de estos sistemas:
Bai&By Euskara |
Los algoritmos de reconocimiento son bastante antiguos (1999). Se está desarrollando una nueva versión del producto, con la colaboración de Aholab. |
Tell Me More Spanish |
|
Presenta una gráfica de puntuación, junto a otro tipo de informaciones ya señaladas. |
FluSpeak |
|
FluSpeak evalúa la pronunciación de cada palabra y del enunciado completo. Evalúa la prosodia y también determinados segmentos. |
Fluency |
Reseñas: |
Fluency evalúa cada segmento y ofrece algunas pautas para una posible mejora en la pronunciación. |
WebGrader |
|
WebGrader realiza una valoración global de la pronunciación vía web. |
Phone Pass Test (Ordinate) |
|
Evalúa cuatro aspectos de la destreza oral, más una evaluación general, todo ello por teléfono. |
EyeSpeak |
Incorpora información articulatoria bastante sofisticada, al menos aparentemente. |
ACTIVIDAD |
Examinar los sistemas señalados. Leer las respectivas reseñas. |
Discutir en común acerca de sus características, ventajas e inconvenientes. |
Como en el apartado anterior, no son muchos los estudios experimentales que evalúan estos sistemas:
También pueden encontrarse reflexiones de tipo más general sobre la utilización del RAH (ASR) en los sistemas de APAO:
ACTIVIDAD |
Repasar la bibliografía señalada. |
Localizar otros trabajos de interés. |
Discutir en común acerca de la información conseguida. |
Desde el punto de vista tecnológico, estos sistemas tienen aún importantes retos que superar:
Desde un punto de vista más didáctico, estos sistemas presentan también unas carencias bastante claras:
El conocimiento fonético debe ocuparse, al menos, de enfocar mejor estas cuestiones:
El objetivo del proyecto ARTUR es mejorar el aprendizaje individual de la pronunciación de L2 y de personas con discapacidad auditiva (y de pronunciación).
Cuando los sistemas como los que hemos examinado proporcionan algún tipo de resultado visual de la producción del sujeto, ese resultado debe ser interpretado (especialmente en el caso de los sordos). Eso puede hacerlo un profesor presencial, pero el objetivo es que lo haga el propio sistema.
ARTUR usa imágenes tridimensionales de la cara y de partes internas de la boca (lengua, paladar, mandíbula) para mostrar las diferencias entre la producción del usuario y la correcta.
El sistema de ARTUR dispone de los siguientes módulos:
Información oficial:
inicio |
Alexander Iribar >> Fonética >> APAO |
Comentarios: alex.iribar@deusto.es |