Introducción a la traducción automática: 5 - 7

6 Sistemas más relevantes

Para terminar el curso, vamos a hacer un repaso un poco más pormenorizado de algunos de los sistemas clásicos de traducción por reglas que han conseguido pervivir hasta nuestros días. Revisaremos los más destacados hasta finales de los noventa, para centrarnos después en los que han pasado a estar disponibles por Internet. Estos últimos interesan especialmente porque en ellos hay que basarse para realizar los ejercicios prácticos del curso. Como colofón añadiremos un par de comentarios sobre la línea central por la que avanzará la traducción automática en el futuro, la localización (materia sobre la cual existe un módulo separado).

Hasta los años noventa

Sin duda el más relevante de los sistemas nunca diseñados ha sido SYSTRAN. De él hay que decir que no se trata de un sistema único, sino de una familia de sistemas con un ancestro común. Este ancestro surgió a finales de la década de los cincuenta de la mano de Peter Toma en la Universidad de Georgetown. En su devenir posterior, pasó por la Universidad de Saarland, en 1964, pionera en lingüística computacional en Europa. (En Saarbrücken se desarrollaron más adelante el prototipo SUSY y algunos de los módulos de EUROTRA.) De vuelta a EEUU, en 1968 Toma fundó Latsec Inc. en La Jolla, California, animado por un contrato de colaboración con la USAF (fuerzas aéreas de EEUU). SYSTRAN fue usado por la NASA en el desafortunado proyecto espacial Apollo-Soyouz entre los años 1974-1975. Esta experiencia le dio prestigio y Toma fue invitado a hacer una demostración entre el par inglés/francés para la CE. Convencida por los resultados, en 1975 la Comisión adquirió la licencia y comenzó a desarrollar sus propios pares de lenguas, adaptando las gramáticas y los lexicones a las propiedades de los textos administrativos internos. En la actualidad el sistema de la CE dispone de 17 pares de lenguas que se han integrado a una red local de servicios lingüísticos, EURAMIS (Strandvik, 2001), que goza de gran popularidad entre los trabajadores de la Comisión. En la década de 1980 otras empresas adquirieron los derechos de explotación: World Translation Corporation en Canadá, SYSTRAN Institute en Alemania, SYSTRAN Corporation en Japón, de manera que durante unos años se produjo una considerable dispersión entre las distintas versiones del programa. A principios de los noventa, la empresa francesa Gachot adquirió todas las filiales, salvo la de la CE, y el sistema se hizo muy popular en Francia, por su accesibilidad a través de Minitel. En 1994 se ofrecía de manera gratuita en los chat de CompuServe. En 1995 salió al mercado una versión adaptada para Windows. Pero la consagración definitiva se produjo en 1997, cuando el sitio de Internet AltaVista llegó a un acuerdo con SYSTRAN para ofrecer el servicio de traducción gratuito por web, BABELFISH. En este momento SYSTRAN es el sistema de traducción más desarrollado (con 35 pares de lenguas disponibles) y más utilizado (1.000.000 de traducciones a través de BABELFISH).

El segundo sistema en veteranía e importancia es sin duda METAL. Se trata de otro superviviente de los sesenta, que al igual que SYSTRAN ha deambulado por los dos continentes. El diseño original se fraguó en 1961 en el LRC (Linguistic Research Center) de la Universidad de Texas en Austin, bajo la dirección de Winfred Lehmann, para el el par inglés/alemán. El destino de METAL pasa al viejo continente en 1978, momento en que la empresa SIEMENS se hizo con los derechos de desarrollo y explotación. Al par inicial se le añaden pronto siete, con las principales lenguas europeas (francés, holandés, danés y español). En 1994 SIEMENS-NIXDORF cede el desarrollo del sistema a un conjunto de filiales creadas al efecto, entre ellas Sietec en Alemania, e Incyta en España. En 1997 estas empresas son absorbidas por el grupo belga Lernout & Hauspie. En la actualidad, los distintos desarrollos de METAL dependen de la empresa Sail Labs. Cabe destacar que en España se han desarrollado los pares de lenguas inglés/catalán (proyecto ITACA) y español/catalán (IncytaEsCA), sufragados por la Generalitat de Catalunya; así como el par español/gallego, sufragado por la Xunta de Galicia.

Para abordar la traducción automática entre el español y el inglés, seguramente el sistema más completo y que mejores resultados ofrece es el desarrollando por la Organización de la Salud Panamericana (PAHO/OPS), situada en Washington DC y fundada en 1950. Existen dos versiones, cada una para cada par de lenguas: SPANAM (español-inglés), que empezó a desarrollarse primero, en 1979; y ENGSPAN (inglés-español), en desarrollo desde 1984. Los responsables dicen que desde que se puso operativo se han procesado más de 35 millones de palabras, con un aumento de la productividad de los traductores de entre un 30% a un 50%. Los sistemas están instalados en una red de área local y son utilizados también por el personal de otras dependencias técnicas y administrativas en la sede de la OPS. Cada diccionario del sistema contiene más de 75.000 palabras, frases idiomáticas y reglas contextuales. Los programas y los diccionarios se mejoran constantemente con las sugerencias de los usuarios. Ambos sistemas han salido recientemente al mercado en versiones compatibles con Windows a un precio asequible (1.600 €).

Por su lado, el gigante de la informática IBM desde mediados de los ochenta ha centrado sus esfuerzos de traducción automática en el proyecto LMT, dirigido por Michael McCord y desarrollado simultáneamente en los laboratorios de EEUU, Alemania, España e Israel. Se trata de una implementación en Prolog (LMT son las siglas de Logic-programming Machine Translation) que adopta la estrategia de transferencia. Se han desarrollado 12 pares de lenguas y en la actualidad se encuentra disponible con el nombre comercial WebSphere. IBM también dispone de un software de memorias de traducción, TranslationManager, que desde 1999 integra los programas de traducción automática de LOGOS, otra de las empresas veteranas en el sector. Este programa también se puede combinar con el traductor italiano/inglés PeTra, desarrollado en colaboración con IBM por la empresa italiana SYNTHEMA.

Desde comienzos de la década de 1990 la mayoría de los programas de traducción se han adaptado al ordenador personal. Dos de los primeros en hacerlo fueron PC-Translator (de Linguistic Products) y Power Translator (de Globalink). Globalink se había fusionado antes con MicroTac (responsable de la gama de productos Language Assistant) y durante unos años (1995 -1998) fue lider de ventas al llevar al mercado sus programas a un precio muy reducido (unos 60 €). Según datos de Ovum Ltd., Globalink obtuvo en 1995 el triple de beneficios que METAL y diez veces más que SYSTRAN o LOGOS. En 1998 Globalink fue absorbida por Lernout & Hauspie y en la actualidad desconocemos su destino tras las dificultades financieras de la empresa en 2000. En lo que respecta a empresas japonesas, Fujitsu, una de las empresas pioneras hace años que oferta versiones para PC de su veterano sistema ATLAS, también comercializado como TransLinGo, a precios moderados (entre 100 y 600 € según las prestaciones). Otros traductores de japonés adaptados a Windows son LogoVista, de Language Engineering Corporation, y Tsunami y Typhoon de Neocor Technologies (posteriormente absorbida por Lernout & Hauspie). De Rusia procede el programa ProMT (antes llamado Stylus), así como PARS, especializados en la traducción del ruso a otras lenguas europeas. Otros programas para PC desarrollados en Europa son, entre los más destacables, WINGER, especializado en la traducción del danés, pero con soporte otros pares de lenguas europeas, y TranSmart, desarrollado por Nokia para el par finlandés/inglés.

En España, se han desarrollado con éxito varios programas para traducir entre el par español/catalán. Además del desarrollado por Incyta (ahora Sail Labs), que también lo ha hecho para el gallego, cabe destacar los siguientes sistemas: SALT, de la Conselleria de Cultura de la Generalitat Valenciana, sistema interactivo para Windows; InterNOSTRUM, para Linux, desarrollado en la Universitad de Alicante y financiado por la Caja de Ahorros del Mediterráneo; el sistema AutomaticTrans de la empresa barcelonesa Softlibrary (traductores del diario El Periódico al catalán); así como el programa ARA, de la empresa valenciana ARA-AutoTrad.

La era Web

El panorama de productos que incorporan tecnologías de traducción ha experimentado un revulsivo lógico con la generalización de Internet a partir de 1995. CompuServe se adelantó ofreciendo SYSTRAN en sus áreas de chat. La puesta en marcha a partir de 1997 del servicio BABELFISH de traducción automática gratuita (para los pares francés, alemán y español del y al inglés) en el portal AltaVista supuso un destacable hito histórico. Desde entonces los acontecimientos se han acelerado. Varias empresas han desaparecido o han sido absorbidas por otras: Logos por IBM; Globalink y Neocor Technologies por Lernout & Hauspi. El precio de adquisición de los programas se ha abaratado considerablemente y su distribución agilizado a través de portales generalistas, como World Language Resources (http://www.worldlanguage.com/). Con Internet son posibles dos cosas antes inimaginables. Por un lado, muchos fabricantes permiten a sus potenciales clientes el acceso a versiones de demostración temporales o parciales, fáciles de conseguir e instalar. Por otro, y más interesante, ahora cualquier usuario con acceso a Internet puede probar las posibilidades de la traducción automática en alguno de los cada día más numerosos sitios que ofrecen servicios abiertos y gratuitos:

Es necesario puntualizar que, salvo para las traducciones al catalán, ninguno de los sistemas en la lista permite obtener traducciones de calidad, por las razones que se han discutido anteriormente. Todos ellos son sistemas de traducción por reglas, con cobertura amplia a costa de una calidad generalmente muy baja. La alternativa es restringir la cobertura. Para mejorar la calidad aplicando métodos basados en analogías con mayor cobertura harían falta grandes cantidades de corpora paralelos, de los que nadie en la actualidad dispone (Abaitua, 2001).

La localización

Antes de terminar, merece la pena dedicar unos minutos a la modalidad de traducción que mejor encaja en el medio electrónico, la localización. Este enfoque tiene dos aspectos novedosos: tratar la traducción como un eslabón más en el ciclo de vida de la documentación; y añadir a la idea de traducción la de adaptación del producto a las demandas del mercado.

Ciclo de vida de la documentación

Si pensamos en la cadena de producción de las industrias de la información, cada vez tiene menos sentido abordar la traducción como una tarea autónoma o aislada. La mayor parte de los textos que se generan a diario no son especialmente originales, se repiten una y otra vez, con pequeños cambios y actualizaciones: textos comerciales, manuales de referencia, instrucciones de uso, disposiciones legales, informes, partes, teletipos... Este tipo de producción documental supone el porcentaje mayoritario de demanda de traducciones. Por ello es importante disponer de métodos eficaces que permitan controlar no solo la traducción, sino todo el ciclo de vida de los documentos (concepción, redacción, revisión, traducción, difusión, catalogación, almacenamiento, reutilización, control de calidad). En este orden de cosas, en los últimos años han adquirido gran importancia los estándares y normas internacionales, tanto en la producción documental (SGML/XML), como en el control de calidad, bien del proceso industrial en su conjunto (ISO 9000), o bien específicamente de la traducción (DIN 2345).

Globalización vs. personalización

Cuando un producto o un servicio se lleva a un nuevo mercado, diferente del inicial para el que fue diseñado, no sólo tiene que ser "traducido" a la lengua de los nuevos clientes, sino que debe tener en cuenta todas las particularidades culturales, sociales, económicas, etc. de ese nuevo mercado. Ello implica la consideración de muchas más cuestiones que las meramente lingüísticas y puede suponer la revisión completa del propio diseño del producto. Un buen diseño es aquel que separa los aspectos ligados al uso particular en un mercado de las propiedades generales del producto, de forma que permita una internacionalización efectiva y facilite su posterior adaptación a otros mercados locales. En la medida en que los mercados se internacionalizan, productos y servicios deben adaptarse a los requisitos locales y gustos personales de los usuarios (Esselink, 1998).

A modo de colofón cabe decir que el mundo no por estar cada día más globalizado dejará de ser multilingüe ni multicultural. Por ello, en esta nueva era de la información, las tecnologías de la traducción y localización tienen asignado un papel estelar.


Joseba Abaitua, enero 2002 Introducción a la traducción automática: 5 - 7