Texto modificado de la conferencia dictada en el curso de especialización Lingüística Informática: Fundamentos e aplicacións. Facultade de Humanidades, Universidade de Vigo, noviembre-diciembre 1997. Existe una réplica en foreignword.com. (s) Joseba Abaitua (Universidad de Deusto).


La traducción automática: presente y futuro

Abstract

Resumen

The increase of information in electronic format is linked to advances in computational techniques for dealing with it. Together with the proliferation of informational webs in Internet, we can also see a growing number of search and retrieval devices, some of which integrate translation technology. Technical documentation is becoming electronic, in the form of CD-ROM, on-line manuals, intranets, etc. An important consequence of the popularization of Internet is that the access to information is now truly global and the demand for localizing institutional and commercial Web sites is growing fast. In the localization industry, the utilization of technology is congenital, and developing adequate tools has immediate economic benefits. (Source: Is it worth learning translation technology?)

La información en formato electrónico ha ido aumentando al tiempo que las técnicas computacionales que permiten su tratamiento evolucionan. Junto a la proliferación de portales informativos en Internet, presenciamos el aumento de los sistemas de búsqueda y captura de datos, algunos de los cuales integran tecnologías de traducción. La mayor parte de la documentación técnica está cambiando de soporte y volviéndose digital, ya sea en la forma de CD-ROMs, manuales en red, intranets, etc. Una consecuencia importante de la popularización de Internet es que la información es accesible mundialmente, lo que conlleva la "localización" (traducción y adaptación) de multitud de portales comerciales e institucionales. En la industria de la localización el empleo de la tecnología es congénito, por lo que el desarrollo de herramientas apropiadas supone importantes beneficios económicos. Fuente: Is it worth learning translation technology?


El ámbito de la traducción automática

Martin Kay

Martin KayEn 1980 Martin Kay redactó un informe interno para la empresa RankXerox, "The Proper Place of Men and Machines in Language Translation", inédito para el gran público hasta su reciente publicación en la revista Machine Translation. El hecho en sí parece inexplicable considerando el enorme prestigio de este especialista de la inteligencia artificial. Que haya sido por fin en 1997 cuando se difunda el texto original se debe a la constatación de muchas de las dudas y predicciones formuladas por Martin Kay hace 17 años. Estas son algunas de sus afirmaciones:

"El ordenador es un instrumento que puede servir para magnificar la productividad humana. Usado adecuadamente, no tiene por qué deshumanizar, con la impronta de su sello orwelliano, los productos de la creatividad y del trabajo del hombre sino que, apropiándose de lo que es mecánico y rutinario, puede liberarle para que se dedique íntegramente a las labores que son esencialmente humanas. La traducción, aun siendo un arte delicada y precisa, conlleva muchas tareas que son mecánicas y rutinarias. Si estas tareas fueran encomendadas a una máquina, la productividad del traductor no sólo se vería magnificada, sino que su trabajo se haría más gratificante, más apasionante, más humano."

"No es adecuado encomendar al ordenador que mecanice lo que no es mecánico, o algo cuya subestructura mecánica no ha sido revelada para la ciencia. En otras palabras, el ordenador se usa inadecuadamente cuando intentamos que haga algo que nosotros mismos no comprendemos. La historia no puede ofrecer un ejemplo mejor de uso inapropiado del ordenador que la traducción automática."

El tiempo le ha dado la razón precisamente en un momento de giro radical en los planteamientos de un destacado sector de empresas especializadas en software para la traducción, dedicadas al desarrollo de entornos de traducción, sobre los que hablaremos detalladamente más adelante. Podemos resumir las recomendaciones de Martin Kay en la máxima de "establecer una correcta división de trabajo que optimice la cooperación entre el traductor y su máquina"


Cuello de botella de la sociedad de la información

Sobrecarga informativa

El inglés como lingua franca

Todavía por bastante tiempo, la solución transitoria a las barreras lingüísticas no se va a encontrar en la traducción sino en una resignación generalizada e inevitable a aceptar el inglés como lengua vehicular o lingua franca. Esta lengua que es nativa para solo un 8% de la población mundial, es, según Jean-François Degremont, sociólogo francés consejero de WorldMedia, lengua vehicular para el 20% de la humanidad.

Según datos recogidos por Large en 1983, del total de publicaciones técnicas y científicas, el inglés era la lengua de origen de la mitad de estas publicaciones; el francés, alemán, japonés y ruso juntos representaban otro 40% y el resto de las lenguas el 10%. En 1991 Jean-François Degremont aportaba una nueva cifra: Un 22% de todas las obras publicadas se editan en inglés, pero esta cifra se remonta hasta el 80% para las publicaciones científicas y técnicas. Estudios recientes apuntan a que la información en inglés sobrepasa el 90% de toda la información depositada en Internet.

El mercado mundial de la traducción

Según Van Slype en 1981 el mercado mundial de la traducción rondaba los 150 millones de páginas, con un presupuesto de 3.000 millones deUS$ y un 175.000 traductores.

Un lustro más tarde en 1986, sólo el mercado japonés (según datos de la Asociación para el Desarrollo de la Industria Electrónica Japones, JEIDA) alcanzaba ya la cifra de 200 millones de páginas traducidas al año, con un presupuesto de 4.000 millones de US$. Una empresa de automóviles traducía 300.000 páginas por año (una página se calcula en unos 400 caracteres japoneses o unas 125 palabras inglesas).

En esa misma fecha, 1986, el mercado europeo se estimaba en 100 millones de páginas anuales. La Comisión Europea calculaba en unas 770.000 páginas las traducidas en 1987 y 967.000 en 1990, con un presupuesto de 10.000 millones de ECU y una plantilla de más de 5.000 traductores para el conjunto de lenguas oficiales. Luxemburgo y Bruselas cifraron en 9.720 el número de reuniones en 1989, lo que equivale a 110.000 días/intérprete.Traducción e interpretación supone casi el 50% de los costes administrativos de la CEE (Balfour, 1986).

En 1984 los servicios conjuntos de conferencias e interpretación en la Oficina de Traducción de la Secretaría de Estado Canadiense generaban 120.000 páginas, con una plantilla de 1.800 traductores. En las mismas fechas, la oficina de las Naciones Unidas en Nueva York traducía un volumen de 1,5 millones de páginas, con un crecimiento mayor a un 50% en 6 años (en 1978 eran 640.000 las páginas traducidas).

Analizando estas cifras se comprueba que la productividad de los traductores puede ser muy variable, de las menos de 100 páginas por traductor/año reportada por la Secretaría de Estado Canadiense, a las más de 700 páginas que la Comisión Europea otorga a sus traductores. Existen muchos factores que relativizan estos promedios, como la diversificación laboral del traductor (redación, interpretación, etc.), el número de versiones de cada página traducida, etc.

En cualquier caso, si se tiene en cuenta que sólo un 3% del volumen total de páginas traducidas corresponde a obras literarias, existen motivos más que suficientas para ensayar la mecanización a gran escala de la producción plurilingüe del grueso de publicaciones diplomáticas, administrativas, comerciales y técnicas, cuyas traducciones son, por su propia naturaleza, mecánicas y rutinarias.

La empresa consultora Ovum Ltd reportaba en un informe publicado en 1996 que el valor estimado del mercado de los productos de traducción para 1995 había sido de 200 millones de EU$, del que más de la mitad correspondía al mercado japonés. Por productos, Systran con 1,5 millones de US$, Metal con 6, Logos con 1,5 y Globalink con 15 son líderes en este momento, aunque con el reciente contrato alcanzado por Trados con Microsoft y la Comisión Europea, esta empresa irrumpe con fuerza en este elitista grupo.


Los objetivos de la TA

Hutchins y Somers 1992, en su obra Introducción a la traducción automática, reflejan con bastante fidelidad las reflexiones de Martin Kay:

Traducciones en borrador

"Lo que se ha logrado es desarrollar programas informáticos que realizan traducciones en borrador en áreas relativamente bien delimitadas. Estas traducciones pueden luego corregirse para obtener versiones finales de calidad por unas tarifas económicas. También pueden dejarse como están, sin revisar, puesto que los especialistas pueden leerlas y entenderlas para informarse. En algunos casos, con los controles adecuados sobre el texto original, es posible alcanzar, de forma automática, resultados de mayor calidad que requieren poca o ninguna corrección."

Textos sin valor literario

"La mayor parte de los textos que se traducen en el mundo no tienen un alto valor cultural ni literario. La mayoría de los traductores profesionales se dedican a satisfacer la enorme y creciente demanda de traducciones de documentos técnicos y científicos, transacciones comerciales, informes administrativos, documentación jurídica, manuales de instrucciones, libros de texto de medicina o agricultura, patentes industriales, panfletos publicitarios, reportajes periodísticos, etc. Parte de este trabajo resulta difícil y constituye un reto, pero un gran porcentaje es tedioso y repetitivo, a la vez que exige precisión y coherencia. La demanda de estas traducciones se está incrementando a un ritmo superior a la capacidad de los traductores, por lo que la ayuda del ordenador ejerce una evidente e inmediata atracción."


Lenguajes y sublenguajes

Lenguajes de especialidad

El ser humano posee una fecunda habilidad para desarrollar y utilizar lenguajes simbólicos. Diversos autores (André Leroi-Gourhan, Luigi Luca Cavalli-Sforza, entre otros) han relacionado el avance tecnológico con el desarrollo lingüístico, hasta el punto de afirmar que lengua y tecnología son dos caras de una misma moneda. Gracias a las matemáticas y a los lenguajes formales ha sido posible la creación del ordenador y el diseño de los lenguajes de programación. Estos lenguajes formales comparten dos características esenciales con los lenguajes utilizados en las áreas de especialidad: deben ser precisos y están sujetos a la normalización.

Las evaluaciones realizadas sobre los sistemas de TA (cf. Margaret King, Karen Spark-Jones, K. Falkedal, etc.) coinciden en señalar que los mejores resultados cualitativos se obtienen precisamente aprovechado las propiedades de los lenguajes de especialidad (o sublenguajes como se conocen en la bibliografía especializada). Existe una norma internacional de evaluación, conocida como ISO 9126, que analiza la idoneidad de un sistema según el grado de adecuación a la aplicación para la que se ha diseñado. En el grupo privilegiado de sistemas adecuados figuran: TAUM-Météo (para partes metereológicos), SPANAM (de la Organización Panamericana de la Salud), o TITUS (de la industria textil francesa).

Otros porgramas de propósito general, como SYSTRAN, LOGOS o METAL, han cosechado sus mejores éxitos también en dominios restringidos. Los proyectos concebidos para un uso sin restricciones, ROSETTA y EUROTRA como más destacados, no han pasado de ser meros experimentos de laboratorio. Paradójicamente, el éxito comercial ha acompañado a Globalink, una empresa que se destaca por haber comercializado productos de propósito general y de considerable poca calidad. Su éxito se explica sobre todo por una intesa y hábil campaña de mercadotecnia.

Para completar el panorama de productos hablaremos además de una serie de productos de gran éxito que no automatizan la traducción sino que ayudan a realizarla (memorias de traducción y bases terminológicas, como las de Trados).

[ [ i+ ] Lengua y tecnología ]


Premisas para una TA realista

Las recomendaciones de Martin Kay se pueden resumir en esta lista de premisas para el desarrollo de una TA realista:


Integración de edición y traducción

En conclusión se puede decir que el enfoque más adecuado es la integración de la traducción en el proceso global de confección del documento plurilingüe, como veremos que es el caso del proyecto de la Comisión Europea EURAMIS.

En su defecto, el traductor, aislado del redactor original y ajeno al proceso documental, debe en cualquier caso disponer de un entorno de traducción (translation workbench) óptimo, en el que se maximicen todas las ventajas del uso del ordenador:

Sistemas expertos en tipología textual

¿Qué es un repertorio de modelos textuales? Vayamos por partes.

La inmensa producción de documentos que se demandan traducir está dentro de los parámetros antes descritos (los textos sin valor literario, la documentación diplomática, técnica y comercial supone más del 90% de la demanda mundial de traducciones) y al redactor no se le permiten excesivas licencias de espontaneidad u originalidad.

La solución no está en disponer de analizadores o generadores universales de texto escrito, semejantes en su aplicación a los correctores ortográficos (como están enfocados en la actualidad los programas comerciales de corrección sintáctica y estilística GRAMMATIK, POWEREDIT o CORRECT-GRAMMAR).

La clave para obtener soluciones efectivas pasa por desarrollar auténticos sistemas expertos en tipología textual, capaces de ofrecer al redactor modelos precisos de documentos como los que desea confeccionar (en la línea de lo apuntado por autores como Hasan 1977, 1984, Ventola 1987 o Martin 1991). El proyecto Legebiduna está concebido de esta manera.

De lo que estamos hablando es de una combinación de repertorios de hojas de estilo (style sheets, cuya utilidad se va haciendo más patente con el tiempo, con sistemas de autor (authoring systems) y memorias de traducción (translation memories).


Presente y futuro

Localización de software

Se llama localización de software a la traducción y adaptación de programas informáticos a la lengua y cultura de cada país. Por razones fundamentalmente económicas, Irlanda (sede de la asociación NUA) se ha convertido en la Meca de los proyectos de localización de software. Esta actividad no sólo implica la adaptación de programas informáticos, una creciente amalgama de documentación técnica (para grandes equipos, buques, aeronaves, etc.) está cambiando aceleradamente el tradicional soporte en papel por soportes electrónicos. La documentación se entrega ahora en CD-ROM y tiene la forma de hipertexto. El Departamento de Defensa americano exige que todos sus proveedores presenten la documentación en un formato concreto de SGML conocido como "normas CALS". El número de grandes empresas que están emulando esta medida es cada día mayor. Es obvio que el futuro de la documentación especializada discurrirá en su totalidad por medios electrónicos.


La sociedad de la información

En relación con la futura sociedad de la información, la Comisión Europea ha puesto un énfasis especial en el estímulo a las llamadas "industrias de la lengua" y a la tecnología necesaria para su desarrollo, la "ingeniería lingüística". Son tres pilares destacados de sus progrmas de fomento cuya razón de ser no es gratuita. El plurilingüismo que caracteriza a Europa, y la distingue del gigante americano, demanda realizar esta apuesta. La manera en que Europa resuelva sus barreras lingüísticas servirá de modelo a un mundo que, no por ser cada vez más pequeño, dejará de ser multilingüe.

El futuro de la traducción automática pasa por la normalización a gran escala de la documentación escrita. Si se plantea como un objetivo práctico, sólo tiene sentido automatizar la traducción cuando se trata de lenguaje estático. El lenguaje estático es una forma de lenguaje que, por un motivo u otro, ha sido fijada, en la que abundan las fórmulas y los clichés y que está, de manera más o menos rigurosa, sometida a control permanente. Se opone al lenguaje dinámico o de la lengua común, que se encuentra en los textos espontáneos o creativos y en el habla coloquial.

La lengua común, por su propia naturaleza, se resiste a los esfuerzos de formalización precisa y exhaustiva que requiere la automatización de la traducción. En este campo, solo cabe hablar en un sentido especulativo, o como complemento o ayuda al traductor humano, que es irremplazable, al modo de los libros de frases y diccionarios, o también con la aportación de fondos documentales que contengan traducciones modélicas que puedan servir de referencia.

En otro orden de cosas, la popularización de Internet abre un nuevo horizonte, debido a su condición globalizadora y plurilingüe, y ofrece un interesante campo de pruebas. En cierto sentido, cuando se editan páginas en varios idiomas, el tipo de trabajo se asemeja a la adaptación o localización de software, área en la que tienen mucho éxito las memorias de traducción.

La experiencia reportada por los mayores consumidores de herramientas informáticas para la traducción (como son la Comisión Europea y la Organización Panamericana de la Salud) se resume de la siguiente manera:

El proyecto EURAMIS es un buen exponente de las medidas adoptadas por la Comisión Europea.

Recommendations to the European Council: Europe and the global information society (Brussels, 26 May 1994):

"In its Brussels meeting of December 1993, the European Council requested that a report be prepared for its meeting on 24 - 25 June 1994 in Corfu by a group of prominent persons on the specific measures to be taken into consideration by the Community and the Member States for the infrastructures in the sphere of information. On the basis of this report, the Council will adopt an operational programme defining precise procedures for action and the necessary means. "

EURAMIS

EURAMIS (European Advanced Multilingual Information Systems) constituye sin duda un intendo decidido por parte de la Comisión Europea para materializar en un entorno real las ideas de Martin Kay. El proyecto comenzó en 1994 y la primera versión piloto ha sido anunciada para finales de 1997. Como prometen sus promotores, EURAMIS está concebido como una arquitectura de fluyo de las pesadas tareas que los traductores realizan para sus clientes en la Comunidad (redactores, secretarios, etc.). El entorno incorpora, entre otros servicios, los siguientes:

El diseño prevee que cualquier trabajador de cuello blanco que solicite una traducción la envíe por correo electrónico al gestor central de EURAMIS. Éste convierte el documento a SGML; los caracteres especiales se codifican de acuerdo con el estándar Unicode. El sistema distribuye el documento, según sus propiedades, entre la memoria de traducción o el programa Systran. El resultado se envía al equipo de traductores humanos, quienes lo revisan o corrigen y lo devuelven al cliente.

Microsoft-Trados

Trados es la empresa estrella del sector en la actualidad. Su gama de productos se especializa en la gestión terminológica, MultiTerm, y en las memorias de traducción, Translation Workbench. Pese a una política de precios muy arriesgada, Trados ha conseguido suculentos contratos con la empresa Microsoft y con la Comisión Europea, que han hecho de sus productos parte integrante de los respectivos entornos, de localización (Microsoft) y EURAMIS (la Comisión Europea). El acuerdo alcanzado con Microsoft para una integración de estas herramientas en los entornos futuros de su caja de herramientas ofimáticas Office, augura un próspero futuro para la empresa.


OpenTag-TMX

OpenTag es un formato desarrollado por la empresa Interantional Language Engineering (ILE) con el propósito de servir de intermediario entre distintos métodos de codificación de textos (RTF, HTML, XML, LaTeX, etc.). Está basado en el estándar SGML y ha sido tomado como modelo para el desarrollo de TMX (Industry-Standard Translation-Memory eXchange Format). En junio de 1997, poco antes de que diera comienzo el congreso de LISA (Localization Industry Standards Association) representates de empresas líderes del sector se comprometieron a desarrollar TMX. El anfitrión de la reunión fue Jochen Hummel de Trados, Franz Rau de Microsoft hizo las labores de moderación y Alan K. Melby ,de la Universidad Brigham Young, las de secretario. Además de los mencionados, acudieron representantes de AlpNet, IBM, TTP, Logos, Multiling, Star y Systran.

El objetivo era aprobar la propuesta de ILE para desarrollar TMX basándose en el formato OpenTag, de manera que cualquier usuario pueda exportar e importar sus memorias de traducción de una plataforma a otra.

Un estándar semejante existe para bases terminológicas: OSCAR (Open Standards for Container/Content Allowing Reuse).


Legebiduna

El proyecto LEGEBIDUNA se concibió en 1993, a partir de una iniciativa del Master en Traducción de la Universidad de Deusto, con la pretensión de demostrar la validez de las técnicas de la lingüística computacional para optimizar las traducciones de los boletines oficiales bilingües del País Vasco. Hemos calculado que en torno a 200 traductores traducen alrededor de 70.000 páginas de textos administrativos (edictos, anuncios, convocatorias, resoluciones, etc.) del castellano al esukara cada año. Esto supone más del 80% del total de la traducción al euskara; sin embargo, según datos del Instituto Vasco de Administración Pública (IVAP), la documentación traducida no llega al 20% de la documentación producida por la Administración. Este dato, unido al factor de que se trata de un ámbito muy adecuado para su mecanización, constituye un buen acicate para el proyecto.

Estamos desarrollando herramientas que aprovechan los textos de un corpus bilingüe como fuente de datos para la creación de entornos de procesamiento de documentos administrativos con ayudas para la composición y traducción simultánea. El corpus se ha tratado por medios automáticos para introducir etiquetas descriptivas cuyo principal cometido es identificar en las dos versiones lo que denominamos unidades de traducción variables. Mediante algoritmos de alineamiento se están construyendo catálogos de pares de equivalencias. Además, como resultado del etiquetado, se han generado definiciones de tipo de documentos (DTDs del estándar SGML), que equivalen a gramáticas capaces de reproducir la estructura de los textos. En este artículo se defiende la idoneidad de la metodología empleada y se presentan muestras de textos etiquetados y de unidades de traducción variables.

El proyecto en la actualidad consta de los siguientes apartados:

Aunque los organismos públicos han prestado una estimable colaboración para la creación del corpus, por el momento el proyecto no está vinculado ni oficial ni financieramente con ningún organismo. Se trata de un trabajo experimental desarrollado en el marco de la investigación de dos tesis doctorales (ver componentes del proyecto).

Otros

Es pertinente citar los siguientes proyectos y productos:


Contenidos

  1. Abstract
  2. El ámbito de la traducción automática
  3. Lenguajes y sublenguajes
  4. Presente y futuro
  5. Lista de programas
  6. Direcciones en Internet

Referencias

W. John Hutchins & Harold L. Somers. 1992.An Introduction to Machine Translation. Academic Press.

Martin Kay. 1997. The Proper Place of Men and Machines in Language Translation. Machine Translation 13:3-23.

G. van Slype. 1982. Economic aspects of Machine Translation. En V. Lawson (comp.) Practical experience of machine translation: 79-83. North-Holland.