Esta página contiene las transparencias, parcialmente adaptadas a HTML, de un curso impartido en 1994 en el Master en Traducción de la Universidad de Deusto. Es una página provisional sobre Traducción Automática preparada por Joseba Abaitua, que se complementa con la descripción del proyecto LEGEBIDUNA y los trabajos unidades de traducción y lengua y tecnología.
Los datos son concluyentes:
Mercado mundial en 1981
Páginas: 150 millones
Presupuesto en US$: 3.000 millones
Traductores: 175.000
(Fuente: Van Slype, 1983)
Mercado japonés en 1986
Páginas: 200 millones
Presupuesto en US$: 4.000 millones
(Fuente: Asociación para el Desarrollo de la Industria Electrónica Japones, JEIDA)
Sólo una empresa de automóviles: 300.000 páginas año.
(una página se mide en unos 400 caracteres japoneses o unas 125 palabras inglesas).
Mercado Europeo en 1986:
Páginas: 100 millones.
La Comisión Europea:
Páginas en 1987: 770.000
Páginas en 1990: 967.000
Traductores 10.000
Presupuesto: 10 mil millones ECU
(sin contar con las traducciones contratadas externamente)
Luxemburgo y Bruselas cifraron en 9.720 el número de reuniones en 1989, lo que equivale a 110.000 días/intérprete.
Traducción e interpretación supone casi el 50% de los costes administrativos de la CEE (Balfour, 1986)
Los servicios conjuntos de conferencias e interpretación en La Oficina de Traducción de la Secretaría de Estado Canadiense:
Páginas: 120.000
Traductores: 1.800.
Oficina de las Naciones Unidas en Nueva York en 1984:
Páginas en 1978: 640.000
Páginas en 1984: 1.500.000
(Para 1985 se estimaba un incremento de un 2%).
El mercado mundial crecerá en un 50% en los próximos 5 años.
Estas cifras son siempre muy relativas porque
Motivos suficientes para justificar la creación de herramientas que permiten automatizar la traducción.
Más de un 75% de textos traducidos pertenecen al área industrial, comercial y científica (Van Slype, 1983).
Del volumen total de publicaciones técnicas y científicas, el inglés supone el 50%, el francés, alemán, japonés y ruso representan otro 40% y el resto de las lenguas el 10% según los datos de Large 1983.
En 1976 la Comisión en Bruselas indicó que el 58% de la traducción se hacía del francés, el 19% del inglés y sólo un
11% del alemán.
La distribución de la traducción a las lenguas oficiales era más proporcional:
20% al alemán,
20% al inglés,
15% al francés, italiano, holandés y danés.
Con la entrada de los nuevos estados Grecia, España y Portugal la distribución de la traducción de las lenguas fuente ha variado considerablemente, pero no tenemos datos.
30 años de investigación.
Reconocimiento de cantidades limitadas de habla sin entrenamiento previo.
Pocos errores cuando el dominio se limita a un vocabulario pequeño.
ATR Laboratories (Advanced Telecommunicatiosn Reserach Institute en Kyoto), desde 1986.
Prototipo SL-TRANS (japonés-inglés) traduce cuestiones concernientes al registro en congresos.
Se pretende construir un sistema independiente del usuario y que utilice un vocabulario de 1.500 palabras.
Un consorcio de universidades y empresas alemanas en el proyecto VERBMOBIL: aparato portátil para la traducción en discusiones de negocios.
En Europa la necesidad de ayudas electrónicas a la traducción de documentos ante el mercado único de 1992 es incuestionable.
Las experiencias piloto no han defraudado:
La Comisión ha utilizado el sistema SYSTRAN que traducía 40.000 paginas año para la CE.
Además la Comisión ha financiado el sistema experimental EUROTRA.
En EEUU los sitemas ENGSPAN y SPANAM de la Pan American Health Organization en Washington estaban traduciendo 100.000 páginas en 1988.
Manuales de prductos industriales: P.e. la General Motors utiliza la TA del inglés al francés, la empresa japonesa MAZDA utiliza el sistema ATLAS de Fujitsu para la traducción del japonés al inglés.
"Los manuales para automóviles son ideales para la TA, ya que son muy secos, muy objetivos, muy prácticos, extremadamente repetitivos y aburridos. No es la clase de texto con la que un traductor humano disfrutaría. Con la TA se ha multiplicado por tres la productividad." (Peter Wheeler, Antler Translation Services)
Textos creativos: poesía, teatro, géneros literarios, ensayos filosóficos, reseñas, críticas, etc. (que contengan lenguaje elaborado, estilizados).
Textos expresivos: lenguaje periodístico muy directo, lenguaje coloquial, juegos de palabras (p.e. guiones cinematográficos), etc.
Textos en los que el lenguaje se mantenga dentro de unos márgenes predictibles:
Partes metereológicos.
Disposiciones legales, administrativas (boletines oficiales, bandos, resoluciones, etc.)
Textos jurídicos estereotipados: contratos, normativas internacionales, etc.
Manuales técnicos.
Boletines informativos (bolsa, teletexto, anuncios por palabras, ofertas de empleo, etc.)
Resúmenes de publicaciones técnicas, textos científicos no creativos, etc.
Consultas a Bases de Datos en otros idiomas: patentes, concursos públicos, novedades tecnológicas, etc.
Correo electrónico.
Dos ventajas evidentes de la TA:
Aumento de productividad.
Homogenidad de términos y en el estilo.
Que los textos estén en soporte magnético (OCR, módem, fax, formatos estándar SGML, etc.)
Las redes telemáticas:
SYSTRAN a través de Minitel.
ATLAS (Fujitsu) a través de NiftyServe
PIVOT (Nec) a través de PC-VAN
CompuServe
El abaratamiento del hardware informático.
Una de las aplicaciones más ambiciosas del PLN (IA).
La TA en sentido amplio abarca todo un abanico de sistemas que sólo comparten la utilización del ordenador como instrumento de traducción.
Slocum 1985 habla de cuatro tipos en función del grado de intervención humana en el proceso:
De forma autónoma, sin intervención del usuario.
Pre-edición: adaptación del texto fuente a las posibilidades del programa, eliminación de ambigüedades o construcciones problemáticas.
Post-edición: revisión y corrección del texto traducido (que también se realiza en las traducciones manuales).
Sistemas interactivos.
El ordenador lleva la iniciativa de la traducción y en las partes más complicadas entabla un diálogo con el usuario:
Resolución de ambigüedades, selección del término más apropiado, identificación de referentes, uso de preposiciones, etc.
La traducción la lleva a cabo el usuario.
La máquina proporciona ayuda:
Consulta y acceso en línea a diccionarios, generales o especializados, inserción automática de términos, acceso a bancos de terminología, ejemplos de uso de palabras, repertorios de frases estereotipadas, clichés, sustitución de párrafos o fragmentos ya traducidos, etc.
No se encuentran integradas en un único entorno o sistema.
Bancos de datos terminológicos (continuamente actualizados, EURODICAUTOM).
Diccionarios especializados, expertos (tesauros, glosarios): biología molecular, mecánica de fluídos, medicina, etc.
Procesadores de texto, verificadores de ortografía, sintaxis, estilo, etc.
Juego de herramientas de desarrollo:
Sistemas que el usuario podrá comprar para desarrollar a medida de sus necesidades.
P.e. MT ToolKit de Executive Communication Systems permite crear diccionarios propios, escribir propias reglas lingüísticas y personalizar la arquitectura básica del sistema.
Distinta naturaleza de los lenguajes artificiales y códigos formales y los lenguajes naturales propios de la comunicación humana.
Será preciso acercar el lenguaje natural al lenguaje artificial, formular los distintos componentes en códigos manipulables por máquina.
Esta empresa ha sido enfocada como un intento de formalizar y representar la capacidad humana de procesar el lenguaje natural, de modelizar los procesos mentales asociados con la comprensión y producción del lenguaje.
Restringir el área de aplicación de la TA soluciona gran parte de la problemática (registro, estilo, etc.)
Complejidad de los sistemas de TA: SYSTRAN procesa unas 10.000 reglas por segundo.
Dificultades derivadas de la ambigüedad del LN (ejemplos de traducción inglés-castellano, euskara-castellano):
He went to the bank with a case in his hand.
Time flies like an arrow.
He came by night/ by train/ by mistake.
Landarea hazi da.
Hazi onekoa.
Oin hazi hura.
hur (gertu/hurra)
basotik (ontzia/oihana)
wind (blowing/clock)
bear (animal/carry)
I saw a man on the hill with a telescope.
Vi a un hombre en el monte con un telescopio.
Mendian zegoen gizona ikusi nuen teleskopioz.
Mendian zegoen gizon teleskopioduna ikusi nuen.
Mendi teleskopiodunean zegoen gizona ikusi nuen.
Gizon bat ikusi nuen mendian teleskopioz.
Gizon bat ikusi nuen mendi teleskopiodunean.
Businessmen who are afraid to take risks frequntly lose out to their competitors.
Ambigüedad referencial:
The car hit the shop-window and it broke.
Juan vio que Pedro salía con su mujer.
La traducción automática es la aplicación pionera entre las distintas área de investigación en tecnología del lenguaje.
La primera máquina traductora se diseñó a principios de la década de 1930.
Los primeros desarrollos serios se dieron con la aparición del famoso ordenador ENIAC en 1946.
Comentaristas como Slocum 1985 o Hutchins 1986 hablan de cuatro décadas, desde los comienzos en los años 30 hasta la década de los 80. Hoy debemos añadir una quinta:
1ª Década: Hasta mediados de los 50. Técnica sencilla de substitución de palabras tal y como aparecen en los diccionarios, reordenando la oración de salida.
Los iniciadores de la TA estaban familiarizados con el ordenador para descifrar la clave de mensajes encriptados. Según esto, traducir sería encontrar la cifra del texto fuente y pasarla al código meta.
When I look at an article in Russian, I say, This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode. W. Weaver, 1949 (Citado por A. Barr & E.A. Feigenbaum The Handbook of Artificial Intelligence, 1981).
Los ordenadores y las técnicas de programación eran muy rudimentarias (programación mediante cableado de un tablero en lenguaje máquina).
2ª Década: 1956 se celebra la I Conferencia Internacional de la Traducción Automática.
Inicio de nueva etapa con numerosos poryectos en todo el mundo. En los EEUU grandes partidas presupuestarias (Ministerio de Defensa) para traducir textos científicos y periodísticos del ruso, francés y alemán.
Sobresalieron las Universidades de Georgetown y Texas, donde se establecieron las bases de sistemas que han perdurado (SYSTRAN y METAL).
En general se produjeron traducciones de baja calidad.
Se hablaba de Fully Automatic High Quality Translation y pronto hubo que aceptar que esto no era viable a corto plazo (Bar-Hillel, 1964).
3ª Década: 1966 se redacta el informe ALPAC (Automatic Language Processing Advisory Committee) del National Research Council.
Tajantes conclusiones muy desfavorables a la TA ("...there has been no machine translation of general scientific text, and non is in immediate prospect".) Parón financiero.
Se reconocen las dificultades: concepción errónea de los proyectos, mal conocimiento del lenguaje, técnicas informáticas inadecuadas, etc.
Sin embargo, paralelamente a la descapitalización de los proyectos de TA comienzan a vislumbrarse importantes avances tanto en lingüística teórica como en ciencia informática.
Syntactic Structures (Chomsky 1957)
Nuevos tipos de estructuras de datos: ALGOL, LISP.
4ª Década: En 1976 la CE decide recurrir a la TA para hacer frente a la ingente cantidad de material que debe traducir. Adopta SYSTRAN. Poco después se crea el proyecto EUROTRA, como sistema moderno de TA.
Además de Europa, también florece la TA en Canadá y en Japón.
En la actualidad, desde el comienzo de los 90, podemos hablar de una nueva década:
5ª Década: en 1991, tras el informe Danzin, se da por terminado el proyecto EUROTRA, con una cierta sensación de fracaso. Por otra parte, los proyectos industriales, como METAL, impulsado por Siemens, u otros de menor categoría como GTS, Weidner, o ALPS, no consiguen entrar en el mercado.
Problema de altos costes de desarrollo y baja amortización.
Sin embargo, la TA es una realidad que está a punto de explotar en el mercado del software: con el babelware y los juegos de herramientas.
Clasificación de los sistemas de TA según su tecnología
Tecnologías clásicas:
Traducción directa, traducción por transferencia, traducción interlingual.
Conciben el texto como un conjunto de oraciones independientes y las oraciones a su vez como un conjunto de palabras invertebradas.
Apenas existe análisis sintáctico y tienen una nula capacidad semántica.
Al no llevar a cabo un verdadero análisis sintáctico no son capaces de detectar ciertas informaciones gramaticales importantes, ni de identificar información semántica, ni desambiguar palabras con múltiples sentidos.
El reordenamiento de las palabras en el texto meta se realiza mediante procedimientos "ah hoc".
Cada par de idiomas se trata de manera independiente y no es posible generalizar resultados.
A pesar de las limitaciones, algunos de estos sistemas han demonstrado ser rentables y útiles. Producen traducciones aceptables y legibles, aunque con elevadas dosis de post-edición.
Sistemas: SYSTRAN (grupo GAT de la Universidad de Georgetown y CEE), SPANAM (utilizado por la Pan-American Health Organization). GTS, PC-TRANSLATOR, etc.
Establecen una representación intermedia al par de lenguas, alrededor de la cual medio se organiza el análisis y la síntesis.
La transferencia separa el proceso de traducción en tres fases: análisis, transferencia y síntesis.
La transferencia se puede producir en varios niveles: léxico, sintáctico, semántico.
Transferencia sintácica: el árbol de análisis de la oración fuente se transforma en un arbol de generación equivalente para la oración meta.
Transferencia semántica: se transforman representaciones profundas: patrones semánticos.
Transferencia léxica: la búsqueda del término equivalente en la lengua meta se realiza a partir de información contenida en el diccionario.
Permite que los procesamientos de la lengua fuente y meta sean independientes.
Sistemas de transferencia: METAL (Universidad de Texas, Siemens-Nixdorf), GETA (Universidad de Grenoble, Vauquois, 1985), TAUM-METEO/AVIATION (Universidad de Montreal, Isabelle, 1985),EUROTRA (CEE, Johnson, 1985), LOGOS, etc.
El método pivot o interlingua persigue la representación del texto fuente en un lenguaje independiente.
En su concepción teórica, refleja la idea de los universales lingüísticos, tan debatida por lingüistas y filósofos.
Los teóricos de la IA en los 70, con sus modelos de representación del conocimiento (Shank, Wilks, Charniak, etc.), propiciaron los primeros sistemas interlingües.
Suelen recomendar este método quienes mantienen que "para traducir un texto antes hay que comprenderlo".
La información semántica suele estar recogida en una base de conocimientos (un modelo del mundo) accesible durante el proceso de traducción.
La implementación pionera más seria es la realizada por el equipo de Sergei Nirenburg en la Carnegie Mellon University, KBMT.
Además: ULTRA (New Mexico State University) y PANGLOSS (CMU, NMSU y University of Southern California).
El proyecto más ambicioso es del consorcio asiático CICC (Centro para la Cooperación Internacional e Informatización), con grupos de trabajo en Japón, China, Tailandia, Malasia e Indonesia. Promovido por el Gobierno japonés y relacionado con el proyecto de diccionario electrónico EDR.
Nuevas aportaciones tecnológicas:
Traducción por medios estadísticos, traducción mediante ejemplos, traducción por medios conexionistas.
Propuestos en TA por Warren Weawer en 1949.
Cualquier sistema de traducción necesita gran cantidad de datos para funcionar con éxito y su recopilación y elaboración manual es una barrera para la rentabilidad.
La disponibilidad de textos bilingües en formato digital ha hecho posible el diseño de métodos automáticos de extracción de información lingüística.
(Hansard Corpus: Actas del Parlamento de Canadá, con unos 3 millones de oraciones en inglés y francés.)
Los métodos estadísticos no significan un cambio de estrategia en la traducción, sino en el desarrollo de los componentes, fundamentealmente de los diccionarios de correspondencias.
Algoritmos que encuentran las correpondencias más probables entre palabras en un contexto dado (de "n" palabras: gramáticas n)
Los experimentos realizados dan un resultado de 90% de aciertos. (Brown et al. 1990, Thomas J. Watson, Centro de IBM en Nueva York)
Enfoque similar a la traducción estadística: también está basada en datos tomados de Corpora textuales.
Suele aplicarse como traducción asistida, en donde el ordenador interacciona con el usuario propoponiendo ejemplos de traducciones.
Este tipo de estrategia ha sido propuesto por varios investigadores: Nagao & Sato(Kyoto University), Sadler (ATR), Saito & Tomita (CMU), Somers, Tsuji & Jones (UMIST).
Sistemas programados mediante redes neuronales.
Estas redes son entrenadas para reconocer textos y crear patrones de datos, a partir de los cuales se generan los textos destino.
Los sistemas de redes neuronales tienen un especial apogeo en IA por su capacidad para el autoaprendizaje.
C-Star System, inglés-chino (Universidad de Karlsrule y CMU), ANN, ruso-inglés (Huntsville Achievement School).
La separación y clasificación de las tecnologías es más metodológica que real. Existe un continuum uniforme.
Los sistemas desarrollados suelen utilizar procedimientos mixtos.
Elección del enfoque según sea la aplicación...
Eclecticismo: Sistemas híbridos en su concepción.
Estos son algunos programas en el mercado (hacia 1994):
Sistema canadiense (Traduction Automatique de l'Université de Montréal) que comenzó en 1965. Desde 1977 ha traducido unos 15 millones de palabras del inglés al francés sin apenas intervención humana. Con un diccionario pequeño de unas 2000 palabras y expresiones, el sistema traduce informes metereológicos. Es un ejemplo clásico de sistema eficaz y apropiado para una tarea de un dominio limitado.
La primera versión fue creada en 1970 por Dr Peter Toma y traducía del ruso al inglés para las fuerzas aéreas americanas. La Comisión lo compró en 1976 y en la actualidad se están desarrollando 16 pares de lenguas nuevos. Según la documentación, las traducciones se procesan a una velocidad de 500.000 palabras por hora. Sytran ha traducido miles de documentos de empresas en Europa y también en Japón (en la traducción al japonés -consorcio JEIDA- usado por Athur Andersen Inc. cuenta con 50 mil palabras básicas y 250 mil términos científicos). En el sector privado los derechos mundiales los ostenta Gachot SA, que ofrece los servicios de Systran a través del Minitel francés.
Usados por la Organización de la Salud Panamericana en Washington DC. Spanam (español-inglés) comenzó en 1979 y Engspan (inglés-español) en 1984. Se dice que traduce del orden de 6.500 palabras por día y traductor, es decir, casi tres veces más rápido que un traductor sin ayudas.
Desarrollado para la industria textil en Francia en 1970. Traduce entre francés, inglés, alemán y español. Requiere una pre-edición considerable. Un editor analiza la frase y de forma interactiva corrige errores y ambigüedades.
Empresa establecida en EEUU en 1977 por Bruce Weidner, después de su investigación en la Universidad Brigham Young. El sistema se comercializó en 1980 con el par inglés-frances, y luego se añadieron los módulos de inglés-español e inglés-alemán (ahora también al portugués, italiano y árabe). Se anuncia que traduce 4.000-8.000 palabras hora. Entre los clientes están Aérospatiale, Bull, Matra, Télésystemes y Thomson en Francia, Perkins Engines en el RU.
Producto también de Brigham Young que data de 1980. Ofrece pares del inglés al francés, alemán y español; del francés al ingles, y del alemán al inglés. Permite un nivel alto de prestaciones que lo hace interactivo. Sus clientes son Texas Instruments, Unisys, NCR France, OTAN, Norsk Data y las empresas en la red Alpnet.
Empresa americana que comenzó ofreciendo traducción del vietnamita al inglés. Los pares ahora incluyen alemán al inglés y francés, e inglés al francés, alemán y español. En "batch" el sistema puede procesar hasta 100 páginas en una hora (320.000 palabras). Algunos de sus clientes son Nixdorf, IBM Germany y Hewllett Packard.
De la empresa Smart Communicationa que también ofrece un sistema de ayuda para escribir manuales en inglés. El traductor llega a las 200.000 palabras en una hora. El mayor cliente es el Ministerio de Trabajo canadiense para la traducción de descripciones de empleo en francés e inglés. Pewrmite una rápida postedición.
Saarbrücker Übersetzungssystem. Data de 1970 y empezó traduciendo del ruso al alemán. Se le han añadido el francés y el inglés al alemán y se han hecho pruebas con el esperanto, holandes, danés al alemán y del alemán al francés.
Compañía basada en Montreal para el par francés ingles a una velocidad de 60.000 palabras hora.
Comenzó en Texas y fue adquirdo por la empresa Siemens. Tiene más de doce instalaciones que incluyen los pares alemán-inglés, francés y holandés y alemán-español.
De Linguistic Products. Comenzó con el danés-inglés y posteriormente se añadieron inglés-francés e inglés-español. Es un sistema limitado útil sólo para traducciones repetitivas.
Ofrece los pares francés-español, inglés-español e inglés-francés.
Desarrollado por el Dr. Daniel Cohen en Israel. Una versión piloto inglés-francés se ha instalado en el Banco Mundial.
Sistema interactivo de la Universidad de Grenoble que se desarrolla dentro del proyecto LIDIA (large internatioanlization of documents by interacting with their authors).
A estos sistemas deberíamos añadir los desarrollados por las empresas japonesas: DUET (Sharp), Pensée (OKI), Meltran (Mitsubishi), As-Transac (Toshiba). Una de ellas, Fujitsu, cuenta con un centro de desarrollo en Barclona para la incorporación del español a su sistema ATLAS.
Además de los traductores automáticos, existe software que ayuda en tareas de traducción:
ANRAP, herramientas informáticas del Centro de Traducción de Publicaciones y Documentos Técnicos y Científicos (Interperov - VCP). Traducen 2 millones de páginas por año.
LINGUIST es un sistema de entrada bilingüe de textos y traducción entre inglés y ruso.
LEXPERTISE, ayudas para escribir en una segunda. European MacProof, muy popular entre los alemanes (diccionario, corrector ortográfico y proofing).
WORD-NET empresa con 400 profesionales trabajando on-line.
SITE. Es un ejemplo de empresa de documentación técnica. Está desarrollando una estación de trabajo lexicográfica para la CNET (compañía telefónica de I+D francesa) para un proyecto de traducción mecánica Ariane. El trabajo incluye recuperación de textos, concordancias, indexación, modelos lingüísticos para las entradas léxicas con información sintáctica y semántica, "frontends" en lenguaje natural para BD online, reconocedores de habla, etc. En SITE trabajan mas de 2000 especialistas, agrupados en 60 equipos de traductores, intérpretes y terminlogistas. Han compuesto dos diccionarios electrónicos: PHENIX, una base de datos y gestor terminológico y AQUILA, un paquete de software para el tratamiento de terminología, apto para traductores autónomos, escritores técnicos y otros profesionales del lenguaje.
El futuro de la traducción automática pasa por la normalización a gran escala de la documentación escrita. Si se plantea como un objetivo práctico, sólo tiene sentido automatizar la traducción cuando se trata de lenguaje estático. El lenguaje estático es una forma de lenguaje que, por un motivo u otro, ha sido fijada, en la que abundan las fórmulas y los clichés y que está, de manera más o menos rigurosa, sometida a control permanente. Se opone al lenguaje dinámico o de la lengua común, que se encuentra en los textos espontáneos o creativos y en el habla coloquial.
La lengua común, por su propia naturaleza, se resiste a los esfuerzos de formalización precisa y exhaustiva que requiere la automatización de la traducción. En este campo, solo cabe hablar en un sentido especulativo, o como complemento o ayuda al traductor humano, que es irremplazable, al modo de los libros de frases y diccionarios, o también con la aportación de fondos documentales que contengan traducciones modélicas que puedan servir de referencia.
En otro orden de cosas, la popularización de Internet abre un nuevo horizonte, debido a su condición globalizadora y plurilingüe, y ofrece un interesante campo de pruebas. En cierto sentido, cuando se editan páginas en varios idiomas, el tipo de trabajo se asemeja a la adaptación o localización de software, área en la que tienen mucho éxito los programs de traducción asistida, concretamente las memorias de traducción.
Material recopilado por © Joseba K. Abaitua Odriozola, disponible para su reutilización y reciclado permanente en WWW. Dirección de contacto: abaitua@fil.deusto.es. Facultad de Filosofía y Letras, Universidad de Deusto, E-48080 Bilbao