Este artículo fue publicado en Perspectives: Studies in Translatology, Vol. 7:2, 1999. Posteriormente ha sido traducido al catalán para la Revista Digital d'Humanitats de la Universitat Oberta de Catalunya. La relación de trabajos que se citan es incompleta y contiene imprecisiones. El autor agradece las sugerencias que se le quieran dirigir e intentará reflejarlas en el apartado Notas. La página principal de referencia del autor es La traducción automática: presente y futuro.

Quince años de traducción automática en España

Joseba Abaitua
Universidad de Deusto

Abstract

Machine translation is fifteen years old in Spain. Research has gone through three major stages. In 1985 a sudden outbreak of interest appeared in Spain as three transnational companies and the European Community funded the creation of several research groups. Paradoxically, 1992, which was a widely celebrated year in Spain (owing to the 5th centennial of the discovery of America and the Olympic Games held in Barcelona), marked the end of that dynamic period. At this point the methods and aims of the field were reconsidered and funding was dramatically cut. Since 1995, the growing globalization of the economy, the boom of Internet and the demand for multilingual documentation and software has renewed the interest in translation technology.

Lavadoras automáticas

Ningún fabricante ha construido nunca una lavadora automática que emule la fisonomía de una lavandera humana. Los ingenieros han adaptado la tecnología a la tarea logrando artilugios cúbicos con apariencia de mueble de cocina, en lugar de androides con articulaciones similares a las de C-3PO. Estas máquinas ofrecen un gran número de ventajas y, salvo para algunas prendas delicadas, la gente las prefiere al lavado manual. Con la traducción automática ha sucedido algo muy distinto. Pese a las recomendaciones de Bar-Hillel en 1960, cuando las propuestas de la inteligencia artificial en informática comenzaron a confluir con las del generativismo en lingüística, los investigadores dirigieron su esfuerzo hacia diseños que pretendían ser «inteligentes» y reproducir el conocimiento humano. Así, durante varias décadas gran cantidad de conocimiento lingüístico ha sido codificado en diccionarios y gramáticas (bilingües, multilingües o interlingües), de manera que fuera procesable por medios computacionales. Pese a los considerables recursos humanos y técnicos que se dedicaron a este fin, los sistemas logrados (SYSTRAN, METAL, LOGOS, ATLAS, etc) no satisficieron las expectativas. Eso sin hablar de proyectos abandonados tras formidables inversiones —EUROTRA, ROSETTA— o de los que nunca han pasado de ser meros prototipos de laboratorio, como MENTOR, KBMT, etc. La forzosa amortización de tan altos costes de desarrollo ha hecho que la salida al mercado de alguno de estos productos haya sido a precios prohibitivos. No por ello el mercado ha dejado de conocer otros productos más asequibles —PC Translator, Language Assistant, etc.— realizados, en comparación, sin apenas tecnología (con diccionarios bilingües muy básicos y mínimo conocimiento sintáctico o semántico). En cualquier caso, las traducciones obtenidas no han llegado, ni de lejos, a competir en calidad con la traducción manual. Tras estos pobres resultados, desde comienzos de los noventa el diseño de los programas se ha ido modificando con la incorporación de tecnologías y objetivos más factibles. Luego volveremos sobre ellos.

La salida al mercado de programas de traducción automática, sobre todo de los más asequibles, confundió a un gran número de personas. Se pueden contar algunas anécdotas ilustrativas: Una compañera psicóloga vino a pedirme un día «el programa» que traducía del español al inglés, ya que quería presentar una ponencia en un congreso internacional. Desconozco cómo llegó a sus oídos la noticia pero, por lo visto, había corrido como la pólvora: «los del Master en Traducción poseen un programa que traduce automáticamente del español al inglés y viceversa». El programa en cuestión era Spanish Assistant para Windows, que distribuíaGlobalink al precio de 15.000 ptas. unidad. Por más que intenté disuadirla de que no le iba a servir de mucho, de que aquello era un juguete para las prácticas de los alumnos, todo lo que conseguí fue hacerle sospechar de mi mezquindad (de querer guardar para mí solo el invento). No quedó satisfecha hasta que no llegó a sus manos. Nunca supe el resultado, pero las veces que nos hemos cruzado por los pasillos me ha parecido descubrir en su mirada una tácita aceptación de mis advertencias.

Hace escasamente dos años me ocurrió otra anécdota similar, pero más sorprendente. Uno de nuestros colaboradores, al que yo suponía cierta conciencia lingüística, se precipitó enviando a un congreso un galimatías, supuestamente escrito en inglés. Ninguno de los firmantes supo nada hasta que ya era demasiado tarde. Por suerte, el coordinador del congreso nos conocía y convino en retirar discretamente el artículo antes de que pasara a la fase de evaluación, evitándonos de esa manera un bochorno mayor. Y es que no había por donde coger el texto: inadecuación de registro, incoherencia discursiva, incorrección sintáctica, impropiedad terminológica y léxica. El culpable ya había utilizado Spanish Assistant en una ocasión anterior (¿¡era reincidente!?). Esta vez se exculpó aduciendo que la traducción la había encomendado al traductor oficial de su universidad. ¡Qué extraño! Incluso cuando el texto original está mal redactado, los buenos traductores («humanos») suelen producir traducciones por lo general sintáctica y estilísticamente aceptables.

No se puede meter un texto en el ordenador y esperar a que se traduzca sin más, ¡ni siquiera con el mejor programa del mundo! Antes es necesario hacer una serie de consideraciones. Como sucede con las lavadoras, existen programas más adecuados para determinado tipo de género y el resultado necesita una revisión posterior (¡de secado y planchado!). Sin duda, con el tiempo, textos y máquinas irán acomodándose mutuamente y habrá máquinas que reconozcan las etiquetas de los textos y apliquen el procedimiento más adecuado, o incluso recomienden la traducción manual cuando se topen con una prenda delicada. Por eso decimos que máquinas y humanos están hechos para complementarse, no para competir. Los ambiciosos pero quiméricos postulados de la inteligencia artificial y del generativismo han retardado el diseño de traductores mecánicos más eficaces. En esto, como en otras cosas, la situación en nuestro país ha sido fiel reflejo de lo sucedido en el contexto internacional.

El lustro dorado

Hace quince años, en 1985, se pusieron las bases del lustro dorado (1987-1991) de la investigación y desarrollo (I+D) de la traducción automática en España. La entrada en la UE (en 1984), así como la creciente relevancia del español como lengua internacional movió a las grandes empresas de la informática a incluir el español en sus prototipos de traducción automática. De la mano de tres empresas transnacionales y de las instituciones europeas, cuatro importantes proyectos llevaron a la formación de grupos españoles de investigación.

Desconozco si fue primero IBM o SIEMENS, pero ambas formaron en 1985 sendos grupos de I+D en sus laboratorios de Madrid y Barcelona, liderados por Luis de Sopeña y Montserrat Meya, respectivamente. IBM utilizó el Centro de Investigación en inteligencia artificial de la Universidad Autónoma de Madrid como sede de un equipo especializado en lenguaje natural. Este equipo tomó parte primero en el diseño del prototipo MENTOR, junto con otro centro IBM de Israel, y más tarde en la adaptación al español de LMT, sistema diseñado en el T.J. Watson Research Center de los EEUU. A tenor de las publicaciones del grupo en la revista Procesamiento del lenguaje natural, entre los años 1985 y 1992 trabajaron en los proyectos de IBM al menos los siguientes especialistas: Teo Redondo, Pilar Rodríguez, Isabel Zapata, Celia Villar, Alfonso Alcalá, Carmen Valladares, Enrique Torrejón, Begoña Carranza, Gerardo Arrarte y Chelo Rodríguez. Si no estoy mal informado, de todos ellos, en la actualidad sólo Chelo Rodríguez continúa trabajando para IBM en el desarrollo y ampliación de LMT.

Por su parte, SIEMENS decidió acercar a Barcelona el desarrollo del módulo español de su prestigioso sistema METAL. Montserrat Meya, que hasta entonces había trabajado en los laboratorios centrales de SIEMENS en Munich, contactó con el filólogo e ingeniero Juan Alberto Alonso, y juntos formaron el núcleo de un equipo en el que luego participaría una interminable lista de colaboradores: Javier Gómez Guinovart, Juan Bosco Camón, Begoña Navarrete, Ramón Fanlo, Clair Corbishley, Begoña Vázquez (por citar sólo algunos). Después de 1992 el grupo dedicado a proyectos lingüísticos se constituyó en empresa independiente, INCYTA. Tras un convenio con la Generalitat de Catalunya y la Universitat Autónoma de Barcelona, se desarrolló el módulo catalán, que es ahora su principal línea de actividad.

A finales de 1986 se crearon en Barcelona y Madrid dos nuevos grupos entre quienes se repartió el desarrollo de los módulos del sistema EUROTRA, financiado por la Comisión Europea. Ramón Cerdá reunió en la Universitat de Barcelona a un nutrido grupo de especialistas, integrado por, entre otros, Jesús Vidal, Juan Carlos Ruiz, Toni Badia, Sergi Balari, Marta Carulla y Nuria Bel. Mientras este grupo se ocupaba de las cuestiones de sintaxis y semántica, otro grupo se encargaba en Madrid de los aspectos de morfología y lexicografía, liderados por Francisco Marcos Marín. Colaboraban con él, entre otros, Antonio Moreno, Pilar Salamanca y Fernando Sánchez-León.

Un año más tarde, en 1987, se formó en los laboratorios de I+D de la empresa FUJITSU en Barcelona un quinto grupo para el desarrollo de los módulos de traducción al español del sistema japonés ATLAS. Este grupo estaba liderado por el ingeniero Jorge Vivaldi y el filólogo José Soler, procedente de EUROTRA. Juntos crearán el embrión de un equipo al que yo me incorporé en 1988, y más adelante Elisabet Cayuelas, Lluis Hernàndez, Xavier Lloré y Ana de Aguilar-Amat.

Otro grupo dedicado a la traducción automática por aquellos años fue el formado por Isabel Herrero y Elisabeth Nebot en la Universidad de Barcelona. Este grupo, tutelado por Juan Alberto Alonso, creó un prototipo de traducción árabe - español en colaboración con la Universidad de Túnez.

Está claro que la traducción automática fue el principal catalizador del nacimiento de la lingüística computacional en España. No es casualidad que la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) se constituyera en 1983. Junto a Felisa Verdejo, otras dos personas se destacaron en su fundación, los citados Montserrat Meya y Luis de Sopeña, quienes por aquel entonces lideraban, como se ha dicho, grupos de traducción automática. El tercer congreso de la asociación (entonces todavía bajo la denominación de «jornadas técnicas») se celebró en julio de 1987 en la Universitat Politècnica de Catalunya, con dos platos fuertes sobre traducción automática: una conferencia de Sergei Nirenburg, entonces adscrito al Center for Machine Translation de la Universidad Carnegie Mellon, y una mesa redonda participada por Jesús Vidal y Juan Carlos Ruiz (de EUROTRA), Luis de Sopeña (de IBM), Juan Alberto Alonso (de SIEMENS), y el propio Nirenburg.

Algunos datos estadísticos constatan la relevancia de la traducción automática en la SEPLN entre los años 1987 y 1991. Durante aquellos años, de los 60 artículos publicados en la revista de la asociación, Procesamiento del lenguaje natural, 23 (más de un tercio) versaron sobre traducción automática. El nivel de participación refleja la relevancia de los grupos: 8 describen EUROTRA, 7 las investigaciones de IBM, 4 METAL, de SIEMENS, y 3 ATLAS, de FUJITSU. Sólo uno de los artículos publicados, de los 23, era ajeno a los cuatro proyectos estrella. Éste fue el presentado en el congreso de 1990 por Gabriel Amores, con los resultados de su investigación en el Centre for Computational Linguistics de UMIST. Se han citado 35 personas y esta cifra da una idea de la actividad. En una estimación aproximada, se puede calcular que en 1989 la investigación en traducción automática contaba en España con un presupuesto anual de unos 200 millones de ptas., una cifra que, por modesta que parezca, multiplica varias veces la cantidad que se maneja hoy en día en nuestro país, una década después.

La resaca del aniversario

Pero la gloria no iba a durar eternamente. Una vez alcanzados los señuelos de las Olimpiadas y de la Exposición Universal de 1992 llegaron las vacas flacas. El desarrollo de los programas no acababa de dar los frutos deseados. La revolución de la microelectrónica con la generalización del ordenador personal incrementó de manera espectacular la competencia y redujo los márgenes de beneficios de las grandes empresas. Los números rojos empezaron a aparecer en las cuentas de resultados anuales; la reestructuración de plantillas llegaría poco después. FUJITSU cerró su centro de I+D en Barcelona. IBM redujo al mínimo sus equipos de investigación tanto en Madrid como en Sevilla (y dirigió el esfuerzo hacia el reconocimiento de voz, con resultados muy buenos, como hemos comprobado recientemente). SIEMENS reestructuró internamente sus plantillas y el equipo de traducción automática pasó a constituirse en empresa independiente con el nombre de INCYTA.

Para agravar todavía más la situación, la Comisión Europea decidió dar por terminado el proyecto EUROTRA, después de 15 años de actividad (1978-1992). En el tercer programa marco de I+D (1990-1994) la Comisión decidió cambiar de rumbo y promover el desarrollo de recursos lingüísticos (ET10/52 - gramáticas, diccionarios, colecciones terminológicas y corpus de textos de las entonces nueve lenguas oficiales), utilizando eufemismos que evitaban reconocer el fracaso de la inversión en EUROTRA. El grupo de Barcelona redujo de manera drástica su plantilla y se convirtió en GILCUB, con desbandada general de sus integrantes hacia puestos docentes en la universidad. Los especialistas que permanecieron en GILCUB, Nuria Bell y Maite Melero, entre otros, pudieron continuar investigando la traducción automática durante algún tiempo, gracias a su participación en nuevos proyectos europeos, como TRADE, considerado por algunos rescoldo de EUROTRA. Pero su actividad irá progresivamente reorientándose hacia la recuperación y ampliación de los recursos lingüísticos desarrollados en la etapa anterior, mediante proyectos como PAROLE o EAGLES. El grupo de Madrid también logra subsistir merced a su participación en proyectos europeos de desarrollo de recursos, como CRATER, para el tratamiento de corpus, o CON-TEXT, aplicado a la corrección ortográfica.

Otra vez la SEPLN sirve de termómetro para medir la actividad en torno a la traducción automática. En el octavo congreso, celebrado en septiembre de 1992 en la Universidad de Granada, se presentaron 4 comunicaciones sobre traducción automática (lo que representa un porcentaje muy bajo sobre el total). En los congresos posteriores al de Granada, la presencia de la traducción automática cae en picado, sólo tímidamente mantenida por los trabajos del grupo de Gabriel Amores, que se creó en la Universidad de Sevilla precisamente en 1992. La actividad no reaparece en la SEPLN hasta prácticamente el congreso celebrado en Madrid en 1997, precisamente de la mano de los grupos de las universidades de Sevilla y Deusto.

Un presente esperanzador

El colapso de la investigación en traducción automática no tuvo efectos tan devastadores como podría pensarse para el conjunto de la investigación en lenguaje natural en España. La SEPLN ha continuado con vigor sus actividades y la infraestructura humana de especialistas ha dado importantes frutos, si bien estos se han circunscrito, casi en exclusiva, a la universidad. Gran parte de la década de los noventa, hasta prácticamente 1997, ha contemplado el desarrollo de recursos básicos, de los que antes se carecía en España: lematizadores y etiquetadores morfosintácticos, correctores gramaticales, analizadores eficientes, bases de datos léxicas y terminológicas, entornos de desarrollo gramatical, corpus de referencia, memorias de traducción, etc. Además, los resultados de nuestros investigadores han tenido un considerable eco internacional. Desde 1992 la presencia de españoles en los principales foros mundiales de la especialidad (ACL, COLING, ANLP, etc.) ha ido en aumento. Madrid fue sede en 1997 del congreso mundial de la Association for Computational Linguistics (ACL), la primera vez que este congreso se realizaba fuera de Norteamérica. Por otro lado, la participación internacional en los congresos de la SEPLN se ha afianzado año tras año. (En septiembre se ha celebrado en Lérida el decimoquinto congreso). Asimismo, se ha consolidado la participación española en proyectos europeos. A los antes citados (CRATER, CON-TEXT, TRADE, EAGLES, PAROLE), hay que sumar EUROWORDNET, EUROMAP, INTERVAL, entre otros.

¿Pero qué sucede con la traducción automática? Muchas cosas han cambiado con la progresiva mundialización de los mercados. La documentación de los productos ha ido cambiando de formato y soporte. Internet ha entrado con fuerza en todas las fases de comercialización pero, sobre todo, se ha convertido en un poderoso medio de acceso a masas cada vez más amplias y heterogéneas de clientes. La demanda de traducciones de páginas web se ha incrementado de manera espectacular. Esta demanda ha sido atendida por un sector emergente de empresas especializadas en la adaptación y traducción (localización) de programas informáticos. En tiempos recientes hemos visto asentarse en nuestro país a un nutrido grupo de empresas transnacionales que combinan el desarrollo de recursos lingüísticos (bases terminológicas, glosarios, etc.) con servicios de traducción y localización: C&L, ITP, L&H, INK, entre otras. Asimismo, dos empresas, que se han dado a conocer mundialmente como proveedoras de gestores de memorias de traducción, STAR y TRADOS, tienen presencia activa en nuestro territorio y compiten en el desarrollo de esta tecnología con una empresa española, DÉJÀ VU.

Al margen de estas empresas, se debe reseñar el esfuerzo realizado en materia de traducción por un medio de prensa diaria, El Periódico de Catalunya, que ha automatizado casi en su totalidad el volcado al catalán de las ediciones originales en español. Otra iniciativa industrial digna de mención es la de la empresa vasca GEINSA, que ha dedicado importantes recursos a la traducción automática y ha presentado prototipos de ambicioso diseño.

Pero estas aportaciones recientes de la industria se han producido en España alejadas de la comunidad académica. El tipo de tecnología que más se utiliza hoy tiene poco que ver con la que se pretendía desarrollar en los años setenta y ochenta, de la mano de la inteligencia artificial o la gramática generativa. Son métodos que, con metas más bajas, permiten agilizar de manera notoria las tareas más rutinarias y pesadas de los traductores: recuperación y cotejo de textos traducidos, mantenimiento y consulta de bases terminológicas, ayudas para la revisión y autoedición, etc. De entre todas las herramientas desarrolladas, son los gestores de memorias de traducción las más demandados por el mercado en este momento. No es casualidad que las dos empresas líderes en esta aplicación, STAR y TRADOS, tengan un origen común en la Universidad de Sttutgart, en Alemania, donde a finales de los ochenta se ensayaron herramientas de traducción que incorporaban técnicas procedentes del reconocimiento de voz.

Como resultado, entre otros factores, de la proliferación de facultades de traducción en España, el interés por la tecnología de la traducción ocupa un destacado lugar en la universidad española.

El grupo JULIETTA de la Univesidad de Sevilla mantiene la traducción automática entre sus áreas de interés. Liderado por Gabriel Amores y José Francisco Quesada, el grupo ha elaborado analizadores eficaces y entornos de desarrollo gramatical (LEKTA, IRIS, EPISTEME). Además de los citados, el grupo está integrado por Teresa López, Gloria Álvarez, Gabriela Fernández, José Ángel Bernal.
En la Universitat Jaume I de Castellón trabaja uno de los expertos en traducción automática de más prestigio en nuestro país, el exmiembro de EUROTRA Juan Carlos Ruiz, que mantiene un destacado papel como asesor y consultor entre los teóricos de la disciplina.
El Instituto Universitario de Lingüística Aplicada (IULA) de la Universitat Pompeu Fabra lleva años trabajando en el desarrollo de herramientas para la gestión terminológica y el procesamiento de corpus multilingües. Pertenecen al Instituto: M. Teresa Cabré, Toni Badía, Antoni Tuells, Marta Carulla, Rosa Estopà, Roser Saurí, Jorge Vivaldi, por citar sólo algunos entre una larga lista de especialistas.
En la Universidad de Vigo existe desde hace un lustro un grupo de expertos en tecnología lingüística y traducción formado por, entre otros, Javier Gómez Guinovart, Anxo M. Lorenzo y Alberto Álvarez.
En la Universidad de Alicante, con el impulso de Andrés Pedreño (rector) y Manuel Marco (vicerrector), se ha abierto la Biblioteca Virtual Cervantes (una colección en SGML/XML de 2.000 clásicos que incluye originales y traducciones). A esta iniciativa se añade la experiencia en el desarrollo de sofware lingüístico del grupo de Antonio Ferrández y Manuel Palomar (DLSI).
En torno a la figura de Gloria Corpas Pastor se ha formado en la Universidad de Málaga un grupo que investiga la automatización de la traducción en el área del lenguaje jurídico.
En la Universidad Europea de Madrid los profesores Antonio Argüeso y Celia Rico colaboran con el especialista Antonio Sánchez en el desarrollo de ayudas diccionariales y en la evaluación del programa DÉJÀ VU.
En la Universidat de Vic el profesor Richard Samson ha organizado un laboratorio de pruebas para herramientas de traducción, que es modélico entre los de su especie.
En la Universidad de Deusto, dentro del proyecto de procesamiento de textos jurídicos en euskara y castellano, LEGEBIDUNA, se han desarrollado etiquetadores en SGML/XML que permiten automatizar la segmentación y alineación de textos paralelos en diferentes niveles: sección, párrafo, oración, fórmula lingüística, término compuesto y nombre propio. Además se han diseñado generadores de documentación estructurada, de edición asistida y de gestión de memorias de traducción. El grupo está compuesto por Raquél Martínez, de la Univesidad Complutense de Madrid, Arantza Casillas, de la Universidad de Alcalá de Henares, y por el que suscribe.

Se puede decir, en resumen, que han sido quince años de investigación y desarrollo de la traducción automática en España en los que se ha pasado por tres fases al compás del ritmo marcado por la actividad internacional. En torno a 1985 hubo un auge de interés que se trasladó a España de la mano de tres empresas transnacionales y un proyecto comunitario. 1992, el emblemático año del centenario, supuso paradójicamente el final de esa etapa y el comienzo de una revisión de objetivos y métodos, así como una reducción drástica de las inversiones. En los últimos cuatro años el interés viene marcado por la creciente mundialización de la economía, el auge de Internet y la localización de documentación electrónica y productos de software. Las facultades de traducción se han convertido en usuarios, más que productores, de estas nuevas tecnologías, con alguna notoria participación en el desarrollo de recursos.

Notas

1. El autor se ha esmerado en citar el mayor número de actividades relacionadas con la traducción automática en nuestro país, pero seguro que no ha logrado ser exhaustivo. La enumeración de los participantes va a modo de homenaje hacia todos aquellos que han dedicado tantas horas a una actividad por lo general ingrata e inadvertida. Las excusas más sentidas para quienes, por error u omisión, permanecen todavía en el anonimato.

2. Nota de Juan C. Amengual (26 de junio de 2000)

Bibliografía

J. Abaitua. Presente y futuro de la traducción automática. http://orion.deusto.es/~abaitua/konzeptu/ta.htm

Y. Bar-Hillel. 1960. The present status of automatic translation of languages, Advances in Computers 1:91-163.

Biblioteca Virtual Cervantes. Universidad de Alicante. http://cervantesvirtual.com/

J. Gómez Guinovart. 1994. Herramientas informáticas para la traducción. Aplicaciones lingüísticas de la informática, 81-96. Tórculo, Santiago de Compostela.

W. J. Hutchins y H. L. Somers. Introducción a la traducción automática. Visor, 1995.

Institut Universitari de Lingüística Aplicada. Universitat Pompeu Fabra. http://www.iula.upf.es/

J. Llisterri y J.M. Garrido. 1998. La ingeniería lingüística en España, Anuario del Instituto Cervantes. http://cvc.cervantes.es/obref/anuario/

Procesamiento del lenguaje natural. http://www.sepln.org/revistaSEPLN/revisSEPLN.htm

Seminario de lingüística informática. Universidad de Vigo. http://www.uvigo.es/webs/h06/webh06/sli/index.html

Sociedad Española para el Procesamiento del Lenguaje Natural. http://www.sepln.org