Introducción a la traducción automática: 4 - 6

5 Traducción basada en analogías

El cambio de enfoque en los noventa se ve favorecido por el drástico abaratamiento de los microprocesadores y las unidades de almacenamiento. Con ello comienzan a proliferar las colecciones de textos en formato electrónico y su disponibilidad favorecida por Internet es una invitación a probar los métodos probabilísticos y conexionistas que tan buenos resultados habían dado ya en el tratamiento de corpora orales. El número de sistemas diseñados se multiplica (Catizone y otros 1993, Kay y Röscheisen 1993; Vogel y otros 1996, Wu 1996 y Tillmann y otros 1997), de forma que puede decirse que a partir de los noventa el paradigma de la traducción por reglas comienza a perder adeptos en beneficio de la traducción por analogías (Jones 1992). Vamos a repasar cuatro aspectos de este enfoque:

Métodos estadísticos

La estadística como método útil en traducción automática ya fue objeto de reflexión por parte de Warren Weawer en 1949. Su retorno a escena se produce en 1990, con el sistema CANDIDE, desarrollado por el grupo del Thomas J. Watson Center de IBM en Nueva York (Brown et al. 1990). Tras el éxito logrado mediante técnicas estocásticas en el reconocimiento del habla, el grupo decidió probar suerte en la traducción. El enfoque se planteó desde el postulado de no usar información para el análisis y la generación que no fuera estadística. El experimento se realizó sobre el corpus Hansard de las Actas del Parlamento canadiense (unos tres millones de oraciones en inglés y francés). Primero se alinearon oraciones, grupos de palabras y palabras sueltas, para después calcular las probabilidades de que una palabra de una oración en una lengua se correspondiera con otras palabras en la traducción. Los resultados sorprendieron a los propios investigadores, ya que casi la mitad de las oraciones traducidas eran exactamente como las contenidas en el texto original o tenían el mismo sentido aunque con palabras distintas. El sistema no se llegó a comercializar, pero supuso un hito histórico en la reorientación de las investigaciones. Entre las aportaciones más recientes cabe destacar la del grupo ISI de la University of Southern California, que desarrolla EGYPT, un paquete de software para construir sistemas basados en la estadística a partir de corpora bilingüe.

Traducción basada en ejemplos

Un enfoque similar a la traducción estadística también basado en la disponibilidad de corpora bilingües es la traducción basada en ejemplos. Fue inicialmente propuesto en 1981 por el veterano investigador japonés Makoto Nagao, pero la técnica no fue probada hasta finales de la década de manera simultánea por el propio Nagao en la Universidad de Kyoto y por el grupo del proyecto DLT (Sadler, 1989) en Holanda. La hipótesis es que los textos traducidos pueden servir de modelo a las nuevas traducciones. El método funciona mediante la extracción y selección de oraciones o sintagmas en un corpus de textos bilingües, previamente alineado. Tsuji y otros (1991) y Sumita e Iida (1991) han aplicado enfoques híbridos similares a éste. La traducción por ejemplos está en la base del desarrollo de las denominadas memorias de traducción (Sato y Nagao, 1991).

Alineación de corpora paralelos

La traducción basada en analogías depende crucialmente de los corpora bilingües, lo que ha hecho que las técnicas de alineación se hayan convertido en una de las áreas de investigación de mayor interés en traducción automática. Alinear es hacer explícitas las relaciones de correspondencia entre segmentos del corpus bilingüe. Siguiendo a Martínez (1999), se puede hablar de tres enfoques principales:

Las técnicas probabilísticas que se basan en anotaciones sintácticas requieren textos anotaciones previas (Black y otros, 1993). El Corpus Brown o el Penn Treebank (Marcos y Santorini, 1991) han servido para el inglés. En otras lenguas también se conocen corpora con anotaciones sintácticas: en turco (Skut y otros, 1997), en checo (Hajic y Hladká, 1998), en alemán (Oflazer y otros, 1999). En euskara se han etiquetado sintácticamente 10.000 palabras (Ezeiza y otros, 1998). Estos procesos son muy costosos, algunas métricas (Voutilainen, 1997) han concluido que es necesario el trabajo de una persona entrenada durante un año para etiquetar sintácticamente un corpus de 200.000 palabras. Martínez (1998 y 1999) obtiene muy buenos resultados sobre un corpus bilingüe en español y euskara que no dispone de etiquetas sintácticas, aplicando técnicas que aprovechan las etiquetas estructurales introducidas en el proceso de segmentación monolingüe. Esta línea de trabajo es la que el grupo DELi continua en la actualidad en la Universidad de Deusto.

Memorias de traducción

La traducción basada en analogías ha experimentado su mayor desarrollo en una tecnología conocida como "memoria de traducción" (MBMT, Memory-based Machine Translation). La técnica consiste en almacenar traducciones, realizadas manualmente y validadas por un traductor humano, para reutilizarlas posteriormente en la traducción de textos similares. Esta tecnología ha sido llevada al mercado con un considerable éxito en paquetes de software que incluyen los módulos de gestión de las memorias, además de programas para crear y mantener bases de datos terminológicas, alineadores automáticos y filtros para la conversión de formatos. Los más conocidos son: DÉJÀ-VU (ATRIL), Translator's Workbench (TRADOS), TRANSIT (STAR), SDLX, Eurolang Optimizer (LANT), CATALYST (ALCHEMY), WORDFAST, etc. Hoy por hoy, el líder indiscutible en el mercado es el producto de la empresa alemana TRADOS, seguido cada vez más de cerca por DÉJÀ-VU, pero la competencia en los próximos años va a ser feroz. Algunos programas (WORDFAST), se ofrecen gratuitamente, como último recurso para captar usuarios. Así que parece que el monopolio tan temido por algunos está lejos de consolidarse. Sánchez-Gijón (2001) y Nogueira (2002) han realizado estudios comparativos con interesantes resultados y valoraciones personales.


Joseba Abaitua, enero 2002 Introducción a la traducción automática: 4 - 6