Texto modificado de la conferencia dictada en el curso de especialización Lingüística Informática: Fundamentos e aplicacións. Facultade de Humanidades, Universidade de Vigo, noviembre-diciembre 1997. Existe una réplica en foreignword.com. (s) Joseba Abaitua (Universidad de Deusto).

La traducción automática: presente y futuro

Contenidos Ámbito de aplicación Lenguajes y sublenguajes Presente y futuro Lista de programas Enlaces y referencias

Abstract

Resumen

The increase of information in electronic format is linked to advances in computational techniques for dealing with it. Together with the proliferation of informational webs in Internet, we can also see a growing number of search and retrieval devices, some of which integrate translation technology. Technical documentation is becoming electronic, in the form of CD-ROM, on-line manuals, intranets, etc. An important consequence of the popularization of Internet is that the access to information is now truly global and the demand for localizing institutional and commercial Web sites is growing fast. In the localization industry, the utilization of technology is congenital, and developing adequate tools has immediate economic benefits. (Source: Is it worth learning translation technology?)

La información en formato electrónico ha ido aumentando al tiempo que las técnicas computacionales que permiten su tratamiento evolucionan. Junto a la proliferación de portales informativos en Internet, presenciamos el aumento de los sistemas de búsqueda y captura de datos, algunos de los cuales integran tecnologías de traducción. La mayor parte de la documentación técnica está cambiando de soporte y volviéndose digital, ya sea en la forma de CD-ROMs, manuales en red, intranets, etc. Una consecuencia importante de la popularización de Internet es que la información es accesible mundialmente, lo que conlleva la "localización" (traducción y adaptación) de multitud de portales comerciales e institucionales. En la industria de la localización el empleo de la tecnología es congénito, por lo que el desarrollo de herramientas apropiadas supone importantes beneficios económicos. Fuente: Is it worth learning translation technology?

El ámbito de la traducción automática

Martin Kay Martin Kay's home page at the Universität des Saarlandes Martin Kay's interview at Ta!, the Dutch Students' Journal for Computational Linguistics Cuello de botella Objetivos

Martin Kay

En 1980 Martin Kay redactó un informe interno para la empresa RankXerox, "The Proper Place of Men and Machines in Language Translation", inédito para el gran público hasta su reciente publicación en la revista Machine Translation. El hecho en sí parece inexplicable considerando el enorme prestigio de este especialista de la inteligencia artificial. Que haya sido por fin en 1997 cuando se difunda el texto original se debe a la constatación de muchas de las dudas y predicciones formuladas por Martin Kay hace 17 años. Estas son algunas de sus afirmaciones:

"El ordenador es un instrumento que puede servir para magnificar la productividad humana. Usado adecuadamente, no tiene por qué deshumanizar, con la impronta de su sello orwelliano, los productos de la creatividad y del trabajo del hombre sino que, apropiándose de lo que es mecánico y rutinario, puede liberarle para que se dedique íntegramente a las labores que son esencialmente humanas. La traducción, aun siendo un arte delicada y precisa, conlleva muchas tareas que son mecánicas y rutinarias. Si estas tareas fueran encomendadas a una máquina, la productividad del traductor no sólo se vería magnificada, sino que su trabajo se haría más gratificante, más apasionante, más humano."

"No es adecuado encomendar al ordenador que mecanice lo que no es mecánico, o algo cuya subestructura mecánica no ha sido revelada para la ciencia. En otras palabras, el ordenador se usa inadecuadamente cuando intentamos que haga algo que nosotros mismos no comprendemos. La historia no puede ofrecer un ejemplo mejor de uso inapropiado del ordenador que la traducción automática."

El tiempo le ha dado la razón precisamente en un momento de giro radical en los planteamientos de un destacado sector de empresas especializadas en software para la traducción, dedicadas al desarrollo de entornos de traducción, sobre los que hablaremos detalladamente más adelante. Podemos resumir las recomendaciones de Martin Kay en la máxima de "establecer una correcta división de trabajo que optimice la cooperación entre el traductor y su máquina"

Cuello de botella de la sociedad de la información

Sobrecarga informativa Lingua Franca El mercado

Sobrecarga informativa

En los albores de una "nueva era" que seguirá siendo plurilingüe, la traducción es el principal cuello de botella para la pretendida globalización de la información. Comparado con las rotativas más modernas capaces de producir unos 20 millones de páginas por hora, un traductor manual puede llegar a rendir, en los casos más favorables, a un ritmo de 20 páginas por día, mejorando muy poco la productividad del monje copista medieval que transcribía 3 o 4 páginas por día.

La incorporación de nuevos estados miembros a la Unión Europea plantea graves problemas de traducción. Fuente: The Journal of Record for Human Language Technology(Sept. 1999)

When Sweden and Finland joined the EU in 1995, that entailed translating some 60,000 pages of EU regulations, the co-called acquis communautaire. Now, thanks to the untiring efforts of the EU's lawmakers in Brussels, Pavlína Obrová; and her colleagues are wrestling with upwards of 80,000 pages of the EU Official Journal, (equivalent to some 200,000 sheets of A4 paper). A team of 35 translators is currently tackling the task in Prague, with support of the European Commission's Technical Assistance and Information Exchange office (TAIEX).

Cuando Suecia y Finlandia se incorporaron a la UE en 1995, hubo que traducir alrededor de 60.000 páginas de regulaciones comunitarias, lo que se conoce como el acquis communautaire. Ahora, gracias al inagotable esfuerzo de los legisladores de Bruselas, Pavlína Obrová y sus colegas están peleándose con más de 80.000 páginas del Diario Oficial de la UE (equivalentes a unas 200.000 hojas tamaño A4). Un equipo de 35 traductores está abordando esta labor en Praga, con la ayuda de la oficina de Asistencia Técnica y de Intercambio de Información de la Comisión Europea (TAIEX).

En un estudio tituladoMethods for Satisfying the Needs of the Scientist and the Engineer for Scientific and Technical Communication, Hubert Murray Jr. revela que se registran aproximádamente 20 millones de palabras por día de información técnica. Un lector capaz de leer 1.000 palabras por minuto necesitaría 45 días, a una media de 8 horas diarias, para digerir la producción de un día. Al cabo de estos 45 días, su desfase sería de 5,5 años. Una comunidad lingüística necesitaría de 2.000 esforzados traductores para poder vertir a su lengua este caudal diario de información técnica.
Susan Hubbard comenta en Information Skills for an Information Society: A Review of Research que en los últimos 30 años se ha generado más información que en los 5.000 anteriores. Más de 9.000 publicaciones periódicas se editan en los EEUU cada año, y casi 1.000 libros salen a la luz diariamente en el mundo. La edición semanal del New York Times contiene más información de la que una persona normal podría encontrar en toda su vida en la Europa del siglo XVII. Y el ritmo de crecimiento del caudal de datos experimenta hoy una aceleración más vertiginosa que nunca.

El inglés como lingua franca

Todavía por bastante tiempo, la solución transitoria a las barreras lingüísticas no se va a encontrar en la traducción sino en una resignación generalizada e inevitable a aceptar el inglés como lengua vehicular o lingua franca. Esta lengua que es nativa para solo un 8% de la población mundial, es, según Jean-François Degremont, sociólogo francés consejero de WorldMedia, lengua vehicular para el 20% de la humanidad.

Según datos recogidos por Large en 1983, del total de publicaciones técnicas y científicas, el inglés era la lengua de origen de la mitad de estas publicaciones; el francés, alemán, japonés y ruso juntos representaban otro 40% y el resto de las lenguas el 10%. En 1991 Jean-François Degremont aportaba una nueva cifra: Un 22% de todas las obras publicadas se editan en inglés, pero esta cifra se remonta hasta el 80% para las publicaciones científicas y técnicas. Estudios recientes apuntan a que la información en inglés sobrepasa el 90% de toda la información depositada en Internet.

El mercado mundial de la traducción

Según Van Slype en 1981 el mercado mundial de la traducción rondaba los 150 millones de páginas, con un presupuesto de 3.000 millones deUS$ y un 175.000 traductores.

Un lustro más tarde en 1986, sólo el mercado japonés (según datos de la Asociación para el Desarrollo de la Industria Electrónica Japones, JEIDA) alcanzaba ya la cifra de 200 millones de páginas traducidas al año, con un presupuesto de 4.000 millones de US$. Una empresa de automóviles traducía 300.000 páginas por año (una página se calcula en unos 400 caracteres japoneses o unas 125 palabras inglesas).

En esa misma fecha, 1986, el mercado europeo se estimaba en 100 millones de páginas anuales. La Comisión Europea calculaba en unas 770.000 páginas las traducidas en 1987 y 967.000 en 1990, con un presupuesto de 10.000 millones de ECU y una plantilla de más de 5.000 traductores para el conjunto de lenguas oficiales. Luxemburgo y Bruselas cifraron en 9.720 el número de reuniones en 1989, lo que equivale a 110.000 días/intérprete.Traducción e interpretación supone casi el 50% de los costes administrativos de la CEE (Balfour, 1986).

En 1984 los servicios conjuntos de conferencias e interpretación en la Oficina de Traducción de la Secretaría de Estado Canadiense generaban 120.000 páginas, con una plantilla de 1.800 traductores. En las mismas fechas, la oficina de las Naciones Unidas en Nueva York traducía un volumen de 1,5 millones de páginas, con un crecimiento mayor a un 50% en 6 años (en 1978 eran 640.000 las páginas traducidas).

Analizando estas cifras se comprueba que la productividad de los traductores puede ser muy variable, de las menos de 100 páginas por traductor/año reportada por la Secretaría de Estado Canadiense, a las más de 700 páginas que la Comisión Europea otorga a sus traductores. Existen muchos factores que relativizan estos promedios, como la diversificación laboral del traductor (redación, interpretación, etc.), el número de versiones de cada página traducida, etc.

En cualquier caso, si se tiene en cuenta que sólo un 3% del volumen total de páginas traducidas corresponde a obras literarias, existen motivos más que suficientas para ensayar la mecanización a gran escala de la producción plurilingüe del grueso de publicaciones diplomáticas, administrativas, comerciales y técnicas, cuyas traducciones son, por su propia naturaleza, mecánicas y rutinarias.

La empresa consultora Ovum Ltd reportaba en un informe publicado en 1996 que el valor estimado del mercado de los productos de traducción para 1995 había sido de 200 millones de EU$, del que más de la mitad correspondía al mercado japonés. Por productos, Systran con 1,5 millones de US$, Metal con 6, Logos con 1,5 y Globalink con 15 son líderes en este momento, aunque con el reciente contrato alcanzado por Trados con Microsoft y la Comisión Europea, esta empresa irrumpe con fuerza en este elitista grupo.

Los objetivos de la TA

Traducciones en borrador Textos sin valor literario

Hutchins y Somers 1992, en su obra Introducción a la traducción automática, reflejan con bastante fidelidad las reflexiones de Martin Kay:

Traducciones en borrador

"Lo que se ha logrado es desarrollar programas informáticos que realizan traducciones en borrador en áreas relativamente bien delimitadas. Estas traducciones pueden luego corregirse para obtener versiones finales de calidad por unas tarifas económicas. También pueden dejarse como están, sin revisar, puesto que los especialistas pueden leerlas y entenderlas para informarse. En algunos casos, con los controles adecuados sobre el texto original, es posible alcanzar, de forma automática, resultados de mayor calidad que requieren poca o ninguna corrección."

Textos sin valor literario

"La mayor parte de los textos que se traducen en el mundo no tienen un alto valor cultural ni literario. La mayoría de los traductores profesionales se dedican a satisfacer la enorme y creciente demanda de traducciones de documentos técnicos y científicos, transacciones comerciales, informes administrativos, documentación jurídica, manuales de instrucciones, libros de texto de medicina o agricultura, patentes industriales, panfletos publicitarios, reportajes periodísticos, etc. Parte de este trabajo resulta difícil y constituye un reto, pero un gran porcentaje es tedioso y repetitivo, a la vez que exige precisión y coherencia. La demanda de estas traducciones se está incrementando a un ritmo superior a la capacidad de los traductores, por lo que la ayuda del ordenador ejerce una evidente e inmediata atracción."

Lenguajes y sublenguajes

Los lenguajes de especialidad Premisas para una TA realista

Lenguajes de especialidad

El ser humano posee una fecunda habilidad para desarrollar y utilizar lenguajes simbólicos. Diversos autores (André Leroi-Gourhan, Luigi Luca Cavalli-Sforza, entre otros) han relacionado el avance tecnológico con el desarrollo lingüístico, hasta el punto de afirmar que lengua y tecnología son dos caras de una misma moneda. Gracias a las matemáticas y a los lenguajes formales ha sido posible la creación del ordenador y el diseño de los lenguajes de programación. Estos lenguajes formales comparten dos características esenciales con los lenguajes utilizados en las áreas de especialidad: deben ser precisos y están sujetos a la normalización.

Las evaluaciones realizadas sobre los sistemas de TA (cf. Margaret King, Karen Spark-Jones, K. Falkedal, etc.) coinciden en señalar que los mejores resultados cualitativos se obtienen precisamente aprovechado las propiedades de los lenguajes de especialidad (o sublenguajes como se conocen en la bibliografía especializada). Existe una norma internacional de evaluación, conocida como ISO 9126, que analiza la idoneidad de un sistema según el grado de adecuación a la aplicación para la que se ha diseñado. En el grupo privilegiado de sistemas adecuados figuran: TAUM-Météo (para partes metereológicos), SPANAM (de la Organización Panamericana de la Salud), o TITUS (de la industria textil francesa).

Otros porgramas de propósito general, como SYSTRAN, LOGOS o METAL, han cosechado sus mejores éxitos también en dominios restringidos. Los proyectos concebidos para un uso sin restricciones, ROSETTA y EUROTRA como más destacados, no han pasado de ser meros experimentos de laboratorio. Paradójicamente, el éxito comercial ha acompañado a Globalink, una empresa que se destaca por haber comercializado productos de propósito general y de considerable poca calidad. Su éxito se explica sobre todo por una intesa y hábil campaña de mercadotecnia.

Para completar el panorama de productos hablaremos además de una serie de productos de gran éxito que no automatizan la traducción sino que ayudan a realizarla (memorias de traducción y bases terminológicas, como las de Trados).

[ [ i+ ] Lengua y tecnología ]

Premisas para una TA realista

Integración de edición y traducción Sistemas expertos en tipología textual

Las recomendaciones de Martin Kay se pueden resumir en esta lista de premisas para el desarrollo de una TA realista:

Es necesario equilibrar la participación entre el traductor humano y la máquina, es decir, se debe buscar el punto óptimo de interactividad.
La máquina debe ayudar al traductor, o en el caso más ambicioso, a un usuario que desconozca totalmente la lengua de llegada, con todos los instrumentos disponibles y en los que la informática es más eficaz: repertorios de términos, de ejemplos, de modelos, etc.
La máquina debe consultar con el traductor todos los casos en los que la complejidad computacional es mayor (ambigüedad, estilo, etc.), es decir, en aquellas cuestiones en las que la máquina se desenvuelve con mayor dificultad.
La máquina debe permitir la integración de los procesos de redacción y de traducción. Previo estudio de los sublenguajes y de la tipología textual, debe ofrecer modelos de texto ya conocidos y que tienen equivalencias bien establecidas en la lengua meta.

Integración de edición y traducción

En conclusión se puede decir que el enfoque más adecuado es la integración de la traducción en el proceso global de confección del documento plurilingüe, como veremos que es el caso del proyecto de la Comisión Europea EURAMIS.

En su defecto, el traductor, aislado del redactor original y ajeno al proceso documental, debe en cualquier caso disponer de un entorno de traducción (translation workbench) óptimo, en el que se maximicen todas las ventajas del uso del ordenador:

Diccionarios on-line
Glosarios terminológicos
Correctores gramaticales y de estilo
Gestión documental (indización, catalogació)
Herramientas de localización de software
Memoria de traducción
Repertorio de modelos textuales

Sistemas expertos en tipología textual

¿Qué es un repertorio de modelos textuales? Vayamos por partes.

La inmensa producción de documentos que se demandan traducir está dentro de los parámetros antes descritos (los textos sin valor literario, la documentación diplomática, técnica y comercial supone más del 90% de la demanda mundial de traducciones) y al redactor no se le permiten excesivas licencias de espontaneidad u originalidad.

La solución no está en disponer de analizadores o generadores universales de texto escrito, semejantes en su aplicación a los correctores ortográficos (como están enfocados en la actualidad los programas comerciales de corrección sintáctica y estilística GRAMMATIK, POWEREDIT o CORRECT-GRAMMAR).

La clave para obtener soluciones efectivas pasa por desarrollar auténticos sistemas expertos en tipología textual, capaces de ofrecer al redactor modelos precisos de documentos como los que desea confeccionar (en la línea de lo apuntado por autores como Hasan 1977, 1984, Ventola 1987 o Martin 1991). El proyecto Legebiduna está concebido de esta manera.

De lo que estamos hablando es de una combinación de repertorios de hojas de estilo (style sheets, cuya utilidad se va haciendo más patente con el tiempo, con sistemas de autor (authoring systems) y memorias de traducción (translation memories).

Presente y futuro

Localización de software La sociedad de la información Proyectos: EURAMIS, OpenTag, Legebidun

Localización de software

Se llama localización de software a la traducción y adaptación de programas informáticos a la lengua y cultura de cada país. Por razones fundamentalmente económicas, Irlanda (sede de la asociación NUA) se ha convertido en la Meca de los proyectos de localización de software. Esta actividad no sólo implica la adaptación de programas informáticos, una creciente amalgama de documentación técnica (para grandes equipos, buques, aeronaves, etc.) está cambiando aceleradamente el tradicional soporte en papel por soportes electrónicos. La documentación se entrega ahora en CD-ROM y tiene la forma de hipertexto. El Departamento de Defensa americano exige que todos sus proveedores presenten la documentación en un formato concreto de SGML conocido como "normas CALS". El número de grandes empresas que están emulando esta medida es cada día mayor. Es obvio que el futuro de la documentación especializada discurrirá en su totalidad por medios electrónicos.

La sociedad de la información

En relación con la futura sociedad de la información, la Comisión Europea ha puesto un énfasis especial en el estímulo a las llamadas "industrias de la lengua" y a la tecnología necesaria para su desarrollo, la "ingeniería lingüística". Son tres pilares destacados de sus progrmas de fomento cuya razón de ser no es gratuita. El plurilingüismo que caracteriza a Europa, y la distingue del gigante americano, demanda realizar esta apuesta. La manera en que Europa resuelva sus barreras lingüísticas servirá de modelo a un mundo que, no por ser cada vez más pequeño, dejará de ser multilingüe.

El futuro de la traducción automática pasa por la normalización a gran escala de la documentación escrita. Si se plantea como un objetivo práctico, sólo tiene sentido automatizar la traducción cuando se trata de lenguaje estático. El lenguaje estático es una forma de lenguaje que, por un motivo u otro, ha sido fijada, en la que abundan las fórmulas y los clichés y que está, de manera más o menos rigurosa, sometida a control permanente. Se opone al lenguaje dinámico o de la lengua común, que se encuentra en los textos espontáneos o creativos y en el habla coloquial.

La lengua común, por su propia naturaleza, se resiste a los esfuerzos de formalización precisa y exhaustiva que requiere la automatización de la traducción. En este campo, solo cabe hablar en un sentido especulativo, o como complemento o ayuda al traductor humano, que es irremplazable, al modo de los libros de frases y diccionarios, o también con la aportación de fondos documentales que contengan traducciones modélicas que puedan servir de referencia.

En otro orden de cosas, la popularización de Internet abre un nuevo horizonte, debido a su condición globalizadora y plurilingüe, y ofrece un interesante campo de pruebas. En cierto sentido, cuando se editan páginas en varios idiomas, el tipo de trabajo se asemeja a la adaptación o localización de software, área en la que tienen mucho éxito las memorias de traducción.

La experiencia reportada por los mayores consumidores de herramientas informáticas para la traducción (como son la Comisión Europea y la Organización Panamericana de la Salud) se resume de la siguiente manera:

La cercanía entre los usuarios de las herramientas y sus desarrolladores es una garantía de que éstas se adapten mejor a la utilidad pretendida.
Las herramientas se deben integrar en el flujo documental, con soluciones de ingeniería de software para el tratamiento de formatos, caracteres, correo electrónico, filtros, etc.
El desarrollo de los diccionarios es una de las claves del éxito. Antes de la incorporación de EURODICAUTOM, los cuatro pares de lenguas mejor tratados en Systran contenían más de 700.000 artículos de diccionario. Después de la incorporación de la base terminológica, entre los 16 pares de lenguas suman más de 4 millones de palabras.

El proyecto EURAMIS es un buen exponente de las medidas adoptadas por la Comisión Europea.

Recommendations to the European Council: Europe and the global information society (Brussels, 26 May 1994):

"In its Brussels meeting of December 1993, the European Council requested that a report be prepared for its meeting on 24 - 25 June 1994 in Corfu by a group of prominent persons on the specific measures to be taken into consideration by the Community and the Member States for the infrastructures in the sphere of information. On the basis of this report, the Council will adopt an operational programme defining precise procedures for action and the necessary means. "

EURAMIS

EURAMIS (European Advanced Multilingual Information Systems) constituye sin duda un intendo decidido por parte de la Comisión Europea para materializar en un entorno real las ideas de Martin Kay. El proyecto comenzó en 1994 y la primera versión piloto ha sido anunciada para finales de 1997. Como prometen sus promotores, EURAMIS está concebido como una arquitectura de fluyo de las pesadas tareas que los traductores realizan para sus clientes en la Comunidad (redactores, secretarios, etc.). El entorno incorpora, entre otros servicios, los siguientes:

El gestor de memorias de traducción de Trados.
Un extractor de terminología.
El sistema de traducción Systran.
Además de todo el elenco de servicios lingüísticos (ECHO - EURODICAUTOM, otras bases terminológicas, etc.)

El diseño prevee que cualquier trabajador de cuello blanco que solicite una traducción la envíe por correo electrónico al gestor central de EURAMIS. Éste convierte el documento a SGML; los caracteres especiales se codifican de acuerdo con el estándar Unicode. El sistema distribuye el documento, según sus propiedades, entre la memoria de traducción o el programa Systran. El resultado se envía al equipo de traductores humanos, quienes lo revisan o corrigen y lo devuelven al cliente.

Microsoft-Trados

Trados es la empresa estrella del sector en la actualidad. Su gama de productos se especializa en la gestión terminológica, MultiTerm, y en las memorias de traducción, Translation Workbench. Pese a una política de precios muy arriesgada, Trados ha conseguido suculentos contratos con la empresa Microsoft y con la Comisión Europea, que han hecho de sus productos parte integrante de los respectivos entornos, de localización (Microsoft) y EURAMIS (la Comisión Europea). El acuerdo alcanzado con Microsoft para una integración de estas herramientas en los entornos futuros de su caja de herramientas ofimáticas Office, augura un próspero futuro para la empresa.

OpenTag-TMX

OpenTag es un formato desarrollado por la empresa Interantional Language Engineering (ILE) con el propósito de servir de intermediario entre distintos métodos de codificación de textos (RTF, HTML, XML, LaTeX, etc.). Está basado en el estándar SGML y ha sido tomado como modelo para el desarrollo de TMX (Industry-Standard Translation-Memory eXchange Format). En junio de 1997, poco antes de que diera comienzo el congreso de LISA (Localization Industry Standards Association) representates de empresas líderes del sector se comprometieron a desarrollar TMX. El anfitrión de la reunión fue Jochen Hummel de Trados, Franz Rau de Microsoft hizo las labores de moderación y Alan K. Melby ,de la Universidad Brigham Young, las de secretario. Además de los mencionados, acudieron representantes de AlpNet, IBM, TTP, Logos, Multiling, Star y Systran.

El objetivo era aprobar la propuesta de ILE para desarrollar TMX basándose en el formato OpenTag, de manera que cualquier usuario pueda exportar e importar sus memorias de traducción de una plataforma a otra.

Un estándar semejante existe para bases terminológicas: OSCAR (Open Standards for Container/Content Allowing Reuse).

Legebiduna

El proyecto LEGEBIDUNA se concibió en 1993, a partir de una iniciativa del Master en Traducción de la Universidad de Deusto, con la pretensión de demostrar la validez de las técnicas de la lingüística computacional para optimizar las traducciones de los boletines oficiales bilingües del País Vasco. Hemos calculado que en torno a 200 traductores traducen alrededor de 70.000 páginas de textos administrativos (edictos, anuncios, convocatorias, resoluciones, etc.) del castellano al esukara cada año. Esto supone más del 80% del total de la traducción al euskara; sin embargo, según datos del Instituto Vasco de Administración Pública (IVAP), la documentación traducida no llega al 20% de la documentación producida por la Administración. Este dato, unido al factor de que se trata de un ámbito muy adecuado para su mecanización, constituye un buen acicate para el proyecto.

Estamos desarrollando herramientas que aprovechan los textos de un corpus bilingüe como fuente de datos para la creación de entornos de procesamiento de documentos administrativos con ayudas para la composición y traducción simultánea. El corpus se ha tratado por medios automáticos para introducir etiquetas descriptivas cuyo principal cometido es identificar en las dos versiones lo que denominamos unidades de traducción variables. Mediante algoritmos de alineamiento se están construyendo catálogos de pares de equivalencias. Además, como resultado del etiquetado, se han generado definiciones de tipo de documentos (DTDs del estándar SGML), que equivalen a gramáticas capaces de reproducir la estructura de los textos. En este artículo se defiende la idoneidad de la metodología empleada y se presentan muestras de textos etiquetados y de unidades de traducción variables.

El proyecto en la actualidad consta de los siguientes apartados:

Creación de un corpus. El corpus en la actualidad está compuesto por boletines de tres administraciones: de las Diputaciones de Álava (BOA 1990-92) y Bizkaia (BOB 1989-95) y del Gobierno Vasco (BOPV 1995). Esto hace un corpus bastante considerable, de aproximadamente 7 millones de palabras en cada lengua (130 Mb). No tenemos previsto, de momento, ampliar más el corpus antes de tratar convenientemente el que ya disponemos.
Etiquetado del corpus. Se ha dedicado un considerable al tratamiento de los formatos y en la conversión de los textos a versiones adaptadas de SGML, en la línea de las propuestas de TEI y MULTEXT. Se ha creado un subcorpus etiquetado y alienado de cerca de 1 millón de palabras.
Estudio estructural. A partir de un análisis detallado de las distintas clases de documentos en una parte del corpus (Órdenes Forales del BOB), se ha realizado un inventario de etiquetas descriptivas. A partir de los documentos etiquetados se han generado por medios automáticos DTDs, que son utilizadas por un entorno de edición/traducción, desarrollado en TCL.
Creación de memorias de traducción. Los textos paralelos se someten a un cotejo automático que tiene como objeto la identificación de unidades de traducción equivalentes en las dos versiones mediante la aplicación de diversos algoritmos de alineamiento. Una vez reconocidas, estas unidades se catalogan formando memorias de traducción.

Aunque los organismos públicos han prestado una estimable colaboración para la creación del corpus, por el momento el proyecto no está vinculado ni oficial ni financieramente con ningún organismo. Se trata de un trabajo experimental desarrollado en el marco de la investigación de dos tesis doctorales (ver componentes del proyecto).

Otros

Es pertinente citar los siguientes proyectos y productos:

Contenidos

Abstract
El ámbito de la traducción automática
- Cuello de botella de la sociedad de la información
- Los objetivos de la TA
  - Traducciones en borrador
  - Textos sin valor literario
Lenguajes y sublenguajes
- Lenguajes de especialidad
- Premisas para una TA realista
  - Integración de edición y traducción
  - Sistemas expertos en tipología textual
Presente y futuro
- Localización de software
- Sociedad de la información
Lista de programas
Direcciones en Internet

Referencias

W. John Hutchins & Harold L. Somers. 1992.An Introduction to Machine Translation. Academic Press.

Martin Kay. 1997. The Proper Place of Men and Machines in Language Translation. Machine Translation 13:3-23.

G. van Slype. 1982. Economic aspects of Machine Translation. En V. Lawson (comp.) Practical experience of machine translation: 79-83. North-Holland.