Traducción automática: introducción en 10 horas

Introducción a la traducción automática: 2 - 4

3 Reseña histórica

El deseo de construir máquinas traductoras precede por bastante tiempo a la propia existencia del ordenador. Por ello, se puede entender que desde el momento en que un ordenador estuvo disponible en la década de 1940, la traducción automática pasó a convertirse inmediatamente en una de las aplicaciones estrella de la informática. Desde entonces, ha dado tiempo a realizar numerosos experimentos, pequeños y grandes, así como inversiones institucionales e industriales sustanciosas. Un referente obligado para conocer con más detalle la evolución de la traducción automática es el académico británico John Hutchins, cuya bibliografía puede, por suerte, ser consultada libremente en Internet. En esta breve reseña de la TA vamos a seguir el esquema simplificado de Johnatan Slocum, que aborda la historia de la TA por décadas. A sus cuatro décadas hasta 1985 vamos añadir dos más.

Seis décadas

1ª Década: Los primeros desarrollos informáticos reseñables se realizaron en el famoso ordenador ENIAC en 1946. Entre los investigadores pioneros hay que citar a Warren Weaver, de la Fundación Rockefeller. Él fue quien dio a conocer públicamente la disciplina anticipando posibles métodos científicos para abordarla: el uso de técnicas criptográficas, la aplicación de los teoremas de Shannon y la utilidad de la estadística, así como la posibilidad de aprovechar la lógica subyacente al lenguaje humano y sus aparentes propiedades universales. El mundo salía de una guerra mundial que en el plano científico había incentivado el desarrollo de métodos computacionales para descifrar mensajes en clave. A Weaver se le atribuye haber dicho "cuando veo un artículo escrito en ruso me digo, esto en realidad está en inglés, aunque codificado con extraños símbolos. ¡Vamos a descodificarlo ahora mismo!" (citado por Barr y Feigenbaum, 1981). No hace falta decir que tanto los ordenadores como las técnicas de programación de aquellos años eran muy rudimentarias (se programaba mediante el cableado de tableros en lenguaje máquina), por lo que las posibilidades reales de probar los métodos eran mínimas.

2ª Década: En 1951 el prestigioso Instituto de Tecnología de Massachussetts (MIT) puso a uno de sus especialistas a trabajar con dedicación exclusiva en TA, Yehoshua Bar-Hillel. Un año más tarde se organizó el primer simposio de la TA con temas como los lenguajes controlados, los sublenguajes, la necesidad de la sintaxis, o la posibilidad de prescindir de la intervención humana. La primera demostración pública de un traductor automático se llevó a cabo en 1954, en la Universidad de Georgetown, con ayuda de IBM y la participación del investigador Leon Dostert. Se seleccionaron cuidadosamente 49 oraciones en ruso que se tradujeron al inglés con un vocabulario de 250 palabras y 6 reglas gramaticales. El éxito mediático de la demostración fue notable y en los EEUU se dedicaron importantes partidas presupuestarias (la mayoría aportadas por el Ministerio de Defensa) para traducir del ruso, francés y alemán. Fue un momento de euforia inicial, que llevó a plantear el objetivo de la fully automatic high quality translation (FAHQT). Entre los desarrollos pioneros de aquella década hay que destacar los de las universidades de Georgetown y Texas, donde se establecieron las bases de dos sistemas que todavía perduran, SYSTRAN y METAL respectivamente.

3ª Década: Pero las considerables inversiones iniciales no daban los frutos deseados. Bar-Hillel en 1960 se atrevió a cuestionar la idea de la FAHQT aduciendo que para obtener resultados equiparables a los de la traducción humana habría que incorporar conocimiento semántico y pragmático en proporciones todavía no alcanzables, por lo que recomendó rebajar los objetivos. En 1964 el National Research Council constituyó un comité, ALPAC (Automatic Language Processing Advisory Committee), para evaluar la situación de la TA. Las conclusiones que se publicaron dos años más tarde tuvieron efectos demoledores: "..no se ha obtenido traducción automática para textos científicos genéricos, y tampoco parece que se vaya a obtener a corto plazo". El resultado fue un drástico recorte financiero que literalmente terminó con la investigación en los EEUU. Pese ha ello, fue una época de enormes avances en el plano teórico. Noan Chomsky revolucionó el estudio de las lenguas con la publicación de su Syntactic Structures en 1957. En el campo de la informática nuevos diseños de estructuras de datos y lenguajes de programación de alto nivel (ALGOL, LISP) llevaron al desarrollo de algoritmos y metodologías modulares que han sido fundamentales en la evolución de la disciplina.

4ª Década: El informe ALPAC afectó dramáticamente a la TA en EEUU, pero en Canadá o Europa apenas tuvo incidencia. En 1976 investigadores del grupo TAUM (Traduction Automatique de l'Université de Montréal) presentaron el sistema MÉTÉO, que traducía partes meteorológicos del inglés al francés. Es un sistema que ha hecho historia, por la idoneidad de la aplicación y diseño. Ese mismo año la CE decidió recurrir a la TA para hacer frente a la desbordante demanda de traducciones internas en sus diversas sedes administrativas. La Comisión compró las licencias para desarrollar SYSTRAN y adaptarlo a sus necesidades. Poco después, con la idea de impulsar la investigación en Europa y elevar la calidad de las traducciones, la propia Comisión financia el ambicioso proyecto EUROTRA. Esta etapa, que abarca todos los ochenta, se caracteriza por un fuerte desarrollo de los métodos simbólicos y una gran vitalidad de la investigación en sintaxis (gramáticas basadas en la unificación de rasgos) y en semántica (formalismos basados en la lógica de predicados). Sin embargo, los avances en el plano teórico no acababan de trasladarse al terreno de los resultados.

5ª Década: Sin duda relacionadas con las conclusiones del informe Danzin, encargado en 1991 por la CE, hubo en Europa dos malas noticias relacionadas con la TA. Por el lado institucional, la CE decidió cancelar definitivamente la financiación de EUROTRA; por el lado empresarial, PHILIPS inesperadamente da por terminado uno de los proyectos de más prestigio entre los especialistas, ROSETTA. Paralelamente en Japón, se aplica una política de moderación presupuestaria tras las fabulosas inversiones de los años precedentes. En este contexto de declive generalizado, hace su aparición en el mercado un nuevo tipo de producto de traducción asistida, de diseño muy distinto a los anteriores. Son los programas de gestión de memorias de traducción, dados a conocer primeramente por IBM (TranslationManager) y posteriormente llevados al gran público por las empresas alemanas TRADOS (Translator's Workbench) y STAR (TRANSIT), y la española ATRIL (DÉJÀ-VU). Otro aspecto destacable de esta etapa es el desarrollo de Internet, así como el cambio de enfoque de la traducción hacia la localización.

6ª Década: En la actualidad estamos ante el comienzo de una etapa nueva. La globalización de empresas y mercados lleva pareja la necesidad de adaptar localmente productos y servicios. Herederas del pasado, un buen número de tecnologías se están integrando y complementando en arquitecturas híbridas, que conciben la traducción como un eslabón más en el complejo ciclo de la información en un medio que ahora sí es electrónico. El leitmotiv de todos estos desarrollos es Internet, con implicaciones que todavía no podemos anticipar, pero que en gran medida dependen de cómo se resuelvan la propiedad intelectual y los derechos de explotación de los recursos lingüísticos que se van acumulando.

Evolución metodológica

Los métodos aplicados a la traducción automática se pueden dividir en dos grandes familias:

traducción basada en reglas (Rule-based Machine Translation, RBMT);
traducción basada en analogías (Analogy-based Machine Translation, ABMT).

Desde el punto de vista teórico son aproximaciones radicalmente contrapuestas que dan origen a sistemas de diseño muy distinto. Los sistemas basados en reglas han sido influidos en su concepción teórica por los avances en Lingüística Generativa e Inteligencia Artificial, sobre todo a partir de la década de 1970. Son estos sistemas los que por lo habitual se consideran propiamente como sistemas de "traducción automática". Los sistemas basados en analogías han hecho su aparición en la década de 1990 y aplican métodos de proximidad estadística sobre muestras de textos previamente traducidos. Aplican técnicas afines a las utilizadas en los sistemas de reconocimiento del habla y en la Lingüística de Corpus. Algunos autores los describen como sistemas de "traducción asistida".

Hasta los años noventa una de las premisas más firmes entre la comunidad de investigadores ha sido considerar la traducción como un problema fundamentalmente de equivalencia semántica. Esta premisa se asienta en el supuesto, que se remonta a Leibniz, y que recogieron Frege y Montague, padres de la semántica contemporánea, de que todas las lenguas del mundo comparten una misma subestructura lógica. Se sigue así que si fuéramos capaces de descubrir y formalizar esta subestructura, el problema de la traducción estaría resuelto. Con esta idea los investigadores han tratado de resolver el problema de la equivalencia conceptual, bien a través de representaciones neutras y comunes -técnica de interlingua- o proyectando representaciones intermedias entre pares de lenguas -técnica de transferencia. Entre los modelos más utilizados para el tratamiento computacional de la semántica cabe destacar los siguientes: redes semánticas (Simmons y Slocum, 1972), preferencias semánticas (Wilks, 1973), gramáticas de caso y valencias (Somers, 1987), representaciones conceptuales (Carbonell et al, 1981; Nirenburg et al, 1985), transferencia léxica (Melby, 1988; Alonso,1990), semántica léxica (Dorr, 1993) y desambiguación léxica (Masterman, 1957; Amsler y White, 1979).

Este supuesto teórico constituye seguramente el factor que más ha perjudicado al desarrollo de sistemas de traducción útiles para los traductores. Hasta fechas recientes, sólo algunos observadores autorizados, como Melby (1995) o Kay (1997), se han atrevido a alzar voces críticas. Melby has sido el primero que de manera explícita ha cuestionado la hipótesis de la universalidad conceptual entre las lenguas. Los traductores profesionales han dudado siempre de la validez de esta idea, como queda reflejado en algunos populares foros de Internet (Lantra-l). En el campo de la traductología, además, existen estudios recientes que describen otros niveles de equivalencia de no menor importancia que el semántico. Nord (1993), como autora más destacada en el estudio de la equivalencia en traducción, propone dos dimensiones más, la equivalencia estilística y la equivalencia pragmática. Por otro lado, Hatim y Mason (1990), insisten en la importancia de considerar la traducción una cuestión de índole sobre todo pragmática, más que meramente lingüística, y proponen un nivel más abstracto de equivalencia, en el plano de los símbolos sociales y culturales, esto es, de la semiótica.

Vamos a repasar un poco más detenidamente las dos familias de métodos utilizados en la traducción automática, considerando los subtipos más importantes.

Joseba Abaitua, enero 2002

Introducción a la traducción automática: 2 - 4