Material preparado para los cursos de postgrado
en
Traducción de la UD y en
Tecnología
Lingüística de la UEU
Joseba
Abaitua
abaitua@fil.deusto.es
http://serv-info.deusto.es/abaitua
Univerisdad
de Deusto
La traducción automática es una actividad tan veterana o más que la informática. Es seguramente también una de las aplicaciones en las que mayores recursos humanos y económicos se han invertido.El mercado ofrece en la actualidad un amplio abanico de productos y es difícil para el profano valorar o elegir el más adecuado para sus necesidades. En este curso se van a aportar las claves principales que permitirán abordar con un mínimo de conocimiento de causa la posibilidad de recurrir a esta tecnología.
En una primera parte, se van a exponer los factores o dimensiones que condicionan la viabilidad de la traducción automática. A continuación se ofrecerá un repaso a los principales hitos en el desarrollo de la disciplina, que aportará una necesaria perspectiva histórica. De esta manera se podrá comprobar cómo han evolucionado las metodologías, que se agruparán en dos grandes familias, cada una de ellas tratada de manera independiente. Para finalizar, se analizarán con algo más de detalle los principales sistemas comerciales, poniendo un énfais especial en los que pueden ser adquiridos o accedidos por Internet.
La traducción automática es una disciplina que ha contribuido de manera determinante al desarrollo de la tecnología lingüística. Existen asociaciones científicas, revistas especializadas, departamentos de universidad y empresas cuya principal actividad es ésta. En palabras de Martin Kay:
El empeño en conseguir máquinas traductoras ha merecido la atención de algunas de las mentes más preclaras de disciplinas como la lingüística, la filosofía, las matemáticas o la informática. La traducción automática ejerce, además, una irresistible atracción sobre un nutrido grupo de incondicionales. ¿A qué se debe toda esta fascinación?
Traducir por medios mecánicos es sin duda un desafío científico. Pero la razón por la que la traducción automática despierta tanto interés no es de índole científica, sino de mera necesidad práctica. Hubert Murray cifró en 20 millones el número de palabras de información técnica que se generaban en el mundo cada día. Un lector capaz de leer mil palabras por minuto necesitaría 45 días, a una media de 8 horas diarias, para digerir la producción de solo un día. Al cabo de esos 45 días, su desfase sería de 5,5 años. Una comunidad lingüística necesitaría dos mil esforzados traductores para verter a su lengua semejante caudal diario. Según Susan Hubbard, en los últimos treinta años se ha generado más información que en los cinco mil anteriores. Más de 9.000 publicaciones periódicas se editan en los EEUU cada año, y casi mil libros salen a la luz diariamente en el mundo. Cuando Suecia y Finlandia se incorporaron a la UE en 1995, hubo que traducir alrededor de 60.000 páginas de regulaciones comunitarias, lo que se conoce como el acquis communautaire. En 1999, sólo tres años más tarde, gracias al inagotable esfuerzo de los legisladores de Bruselas, esa cifra se había incrementado en 20.000. La inminente entrada en la UE de nuevos países del Este europeo pone a la Comisión ante un situación lingüística muy delicada, que solo los avances de las nuevas tecnologías pueden contribuir a paliar.
Los objetivos de este curso son:
El curso se impartirá en dos sesiones de tres horas en las que se abordarán los temas preparados. Posteriormente cada alumno deberá invertir un mínimo de cuatro horas para realizar los ejercicios prácticos, que culminarán en la elaboración de un informe. Este trabajo se podrá realizar de manera individual o en grupos de máximo dos personas. Será necesario disponer de conexión a Internet, tanto para realizar los ejercicios como para solicitar la ayuda del profesor (accesible en la dirección abaitua@fil.deusto.es).
Además de la asistencia a clase, que será obligatoria, los alumnos deberán realizar unos ejercicios prácticos que describirán y comentarán en un informe. La calificación final tendrá en cuenta la calidad de este informe. Se valorarán tanto el interés de las pruebas realizadas como la descripción y evaluación de los resultados. Es importante que el informe refleje la aportación personal del alumno, que deberá contener aspectos originales y novedosos. Es importante que se documenten claramente las fuentes consultadas, indicando mediante marcas tipográficas las citas textuales y anotando la referencia (autor y fecha).
Llamamos dimensiones a los factores que hay que considerar a la hora de utilizar la traducción automática. Estas dimensiones configuran las coordenadas de un espacio de posibilidades en el diseño y aplicación de los programas. Vamos a hablar de seis dimensiones:
Los traductores saben muy bien que cada traducción es un mundo. Hay una gran variedad de textos, cada uno con sus peculiaridades. No es lo mismo traducir una convocatoria de asamblea, que una crónica deportiva o una columna de Francisco Umbral. Para abordar estas diferencias se suele recurrir a conceptos como género, registro, estilo o tipo (Trosborg, 1997). Las diferencias entre estas nociones no siempre están muy claras, pero son tan fundamentales para traducir manualmente como mecánicamente.
Estas nociones se entrelazan y mezclan a la hora de describir un texto concreto. Desde el punto de vista de la traducción automática la discusión sobre el tipo y el género se ha reducido a la distinción de Kay (1992) entre lenguaje singular (remarkable) y no singular (unremarkable), muy similar a la de Melby entre lenguajes de especialidad y lengua común (o lenguaje estático frente a dinámico, según otros autores).
La distinción entre lenguajes de especialidad y lengua común tiene relación con otras dos nociones importantes, la de granularidad, también de Melby, y la de densidad léxica de Laviosa (1998). La definición de granularidad se basa en el tamaño de las unidades léxicas en las que se puede segmentar un texto. Los textos de granularidad más gruesa son los que contienen combinaciones mayores de palabras: fórmulas, frases hechas, nombres propios, términos compuestos. La densidad de un texto es inversamente proporcional a la granularidad. A mayor densidad, menor granularidad. Los textos que muestran una densidad alta son generalmente de ámbitos de especialidad. Muchas normas y órdenes de las que se publican en los boletines oficiales son de granularidad 1 y densidad 100, ya que se componen de una única fórmula administrativa (como la concesión de una licencia para construir una casa, por ejemplo).
Podemos decir en resumen que
La noción de granularidad tiene que ver con un problema muy conocido en teoría de la traducción, que es la segmentación de los textos en unidades de traducción (Bennett, 1994). Es importante distinguir las unidades por su extensión, es decir, por el número de palabras que las forman, y por su cohesión, o posibilidad de interpretarlas conjuntamente o por separado:
Esta clasificación, que se propone en Abaitua (2001), incluye unidades que son composicionales (a-c), o de menor cohesión, ya que el significado del segmento completo puede entenderse a partir de los significados parciales, y otras de mayor cohesión (d-g). Un sistema de traducción automática debe ser capaz de reconocer las unidades mayores primero, antes de tratar cada palabra por separado.
Un tercer aspecto que va a incidir de manera fundamental en la dificultad de traducir por medios mecánicos es la distancia lingüística y cultural entre lenguas. Esta dimensión, que es clave para acertar en el diseño de un traductor mecánico, paradójicamente no ha sido tenida en cuenta hasta épocas recientes. Hoy sólo podemos entender que proyectos como EUROTRA fallaran tan estrepitosamente por la ingenuidad de sus diseñadores, que no fueron capaces de reconocer esta dimensión, o por la desmesurada fe en su metodología (es decir, por su arrogancia científica). Al cabo de los años parece inexplicable que no hubieran sido capaces de construir si no un único sistema, al menos dos subsitemas hábiles, adaptados a cada una de las dos grandes familias lingüísticas europeas representadas en la Unión: la latina (italiano, francés, español y portugués) y la germana (alemán, holandés e inglés). El griego y el danés quedaban fuera, pero podrían haberse adaptado con más o menos dificultad a los subsitemas latino y germánico respectivamente.
La cercanía entre las lenguas latinas es tan grande, que un sistema simple de traducción sintagma por sintagma hubiera dado resultados aceptables muy rápidamente. Problemas tan importantes como el orden de las palabras, la ambigüedad estructural y lógica, o la adecuación de registro habrían sido minimizados por su proximidad lingüística. Esta misma razón es la que ha permitido obtener tan buenos y rápidos resultados en los sistemas de traducción del español al catalán y al gallego. La estrategia de traducción al euskara tiene que ser necesariamente mucho más elaborada, porque las diferencias estructurales entre las gramáticas de las lenguas latinas y la del euskara, en lo referente a los aspectos citados, son muy importantes.
Pero al problema de la distancia lingüística hay que sumar la distancia cultural. Las gramáticas del euskara y del japonés tienen muchos puntos de coincidencia, pero esto no quiere decir que se pueda obtener un sistema con la misma facilidad con la que se obtiene para el gallego y el español. El principal problema para traducir del y al japonés estriba en lo exótico de sus convenciones culturales, sobre todo en aquellas que se manifiestan en la lengua. Las estrategias de comunicación en esta lengua oriental son muy distintas si se las compara con las de las lenguas europeas; no sólo se complica el número de registros y estilos, sino que los giros y expresiones más sencillas de decir las cosas cambian también. Al traducir del y al japonés hay que tener en cuenta más cuestiones que las meramente gramaticales. Las traducciones con base sintáctica producen la mayoría de las veces textos no sólo inadecuados, sino casi siempre totalmente incomprensibles.
Nadie se atrevería a decir exactamente cuántas lenguas se hablan en el mundo. Se calcula que son unas 6.700, aunque el número exacto depende de lo que se entienda por lengua y de cómo se distinga lengua de variedad dialectal. Se estima que más de 400 están a punto de extinguirse, la mayoría habladas en Australia y en las Américas. También en Europa hay lenguas en estado terminal, siete según el catálogo de Ethnologue (2001). Cuatro de ellas son variedades del Saami, la lengua de los lapones repartidos por Rusia, Noruega y Suecia, países en los que apenas quedan algunas decenas de hablantes.
Poco más de un centenar de las lenguas del mundo pasan de siete millones de hablantes. Pero son todavía menos las que tienen presencia significativa en Internet, principal exponente de la sociedad de la información. Podemos usar el directorio de Google como termómetro de la presencia de estas lenguas y comprobar que sólo 66 están representadas. Llama la atención que lenguas con muchos hablantes, como el vietnamita, hablado por cerca de 68 millones de personas, cuente sólo con 80 páginas referenciadas en el directorio (es decir, poco más de una página por cada mil hablantes); mientras que lenguas minoritarias como el euskara, hablado por menos de un millón de personas, contabilice 4.278 páginas (Google, 26.12.2001). Esto quiere decir que hay 4.532 más páginas en euskara por hablante de euskara que páginas en vietnamita por hablante de vietnamita. En la comparación con otras lenguas la proporción se estabiliza; calculamos 45 páginas más por hablante de euskara que por hablante de húngaro, 21 más que por hablante de español y hasta tres veces más que por hablante de alemán. Estos datos son solo aproximados (seguramente Google no sea muy conocido en Vietnam), pero en todo caso dejan claro que el desarrollo de una lengua no depende del número de hablantes.
Existen muchas razones para subrayar la importancia de este factor, pero se pueden resumir en una: para poder crear herramientas informáticas, como un traductor automático, hace falta disponer de recursos lingüísticos: diccionarios, gramáticas, analizadores, bases de conocimiento y, sobre todo, corpora. El grado de disponibilidad de estos recursos incidirá directamente en la facilidad con la que se podrán generar las herramientas. Para disponer de recursos hay que pasar antes por muchas fases de desarrollo, que van desde la estandarización de una forma de escritura, pasando por la normalización de su uso en el mayor número posible de ambitos sociales, hasta la promoción de grupos avanzados de investigación en ingeniería lingüística. Si una lengua no ha pasado por la fase de estandarización de su escritura, poco sentido tiene plantear el desarrollo de aplicaciones computacionales.
Directorios como el de Google dan una idea aproximada del grado de desarrollo y vitalidad de las lenguas. Para traducir (se haga por medios mecánicos o manuales), es fundamental que las lenguas tengan un nivel de desarrollo equiparable, porque de lo contrario el traductor deberá duplicar el trabajo, normalizar primero y traducir después. Para ilustrar este problema podemos recurrir a un caso que conocemos muy bien. Cuando se decretó el bilingüismo oficial en el País Vasco, hacia 1979, hubo que realizar un esfuerzo inmenso de desarrollo lingüístico en todos los ámbitos, empezando por el administrativo, pero sin dejar ningún otro atrás, ya que el euskara entró en la administración, pero también lo hizo en los medios de comunicación y en la educación, desde la formación primaria hasta la universitaria. Esto quiere decir que durante veinte años los traductores de euskara han combinado dos funciones, la normalización lingüística y la traducción.
Hay que advertir que la normalización tiene límites. Aunque es posible elevar el desarrollo de una lengua hasta los niveles más altos (técnicos o científicos), no tiene sentido que todas las lenguas intenten equipararse al inglés. Esto es algo que los hablantes de lenguas minoritarias de países desarrollados como Noruega o Finlandia han comprendido muy bien. Cada idioma posee sus ámbitos naturales de uso. A una lengua minoritaria no le perjudica ceder algunos espacios a las lenguas mayoritarias, siempre y cuando su comunidad de hablantes no pierda el apego por la lengua en los ámbitos más íntimos y cotidianos. En países como Francia o España existe el empeño de elevar el francés y el español a la misma cota que el inglés; pero hoy en día esto es absurdo. Es una batalla perdida que no debe ser emulada, y señalo en este sentido al euskara. Es importante poner un orden racional en las prioridades. Muy probablemente la mejor defensa de una lengua minoritaria pasa por la promoción del multilingüismo.
Desde hace años en los estudios de traducción se distinguen dos actividades claramente diferenciadas. La primera es la interpretación, o traducción de intervenciones orales. La segunda es la traducción de textos escritos. El perfil de los profesionales de una y otra especialidad suele ser muy distinto. Los intérpretes traducen casi siempre sin tiempo para pensar, ni para preparar el texto, o consultar diccionarios. Tampoco pueden repasar o corregir sus traducciones. Su trabajo se realiza de manera simultánea al de la producción del original y conlleva generalmente una gran interacción social. El intérprete está totalmente sometido al contexto en el que se realiza su trabajo, atado a una serie de protocolos y convenciones. Además, el lenguaje oral tiene características muy distintas del lenguaje escrito; es espontáneo, contextualizado, descontinuo y muchas veces agramatical. Por el contrario el traductor de textos escritos se enfrenta a textos que la mayoría de las veces se han escrito con cuidado, que a veces incluso pueden contener valores literarios. Normalmente dispone de tiempo para consultar diccionarios u otras fuentes documentales, y de revisar y corregir sus traducciones. Generalmente este trabajo se desempeña en condiciones de aislamiento, desconectado del entorno social, con el único condicionante de la premura de tiempo.
Aunque en ocasiones se habla indistintamente de traducción de textos orales y escritos, es obvio que representan problemas de índole muy distinta. Análogamente, el medio electrónico ha dado lugar a un tipo de documento y necesidades muy distintas de los medios oral y escrito tradicionales. Cada vez son más numerosos los textos que se generan de manera automática y se conciben con el conocimiento previo de que van a ser tratados por otros sistemas automáticos. En muchos casos, los textos se generan dentro de unas condiciones de control muy estrictas para facilitar su procesamiento posterior. Aunque existe un interés comercial muy grande por los programas de traducción del habla (C-STAR, JANUS , VERMOBIL, EUTRANS, etc.), y la industria sigue mejorando los programas tradicionales de traducción de textos escritos, el futuro se dirige hacia el tratamiento automático de textos en soporte electrónico. Esta tarea se ha venido a denominar localización, y a ella le dedicaremos un pequeño apartado.
En resumen, podemos distinguir tres modos de traducción según el medio:
Hecha esta distinción, hay que añadir que el medio electrónico es ante todo multimedia, con capacidad para integrar los tres medios y modos descritos.
Habida cuenta del cúmulo de factores que inciden en el diseño de un sistema de traducción automática, no sorprende que los resultados no satisfagan siempre las expectativas. Por eso, sin duda el factor más importante que se debe tener en cuenta cuando se diseña un progrma es definir claramente el uso que se le quiere dar. En el pasado muchos sistemas han sido diseñados con la idea de que sirvan un propósito general, es decir, que sean capaces de traducir cualquier texto; y lo que se han obtenido son programas que proporcionan traducciones muy deficientes. Sin embargo, cuando se delimita más claramente el ámbito de aplicación y ese ámbito se contempla adecuadamente en el desarrollo (en los módulos léxico y sintáctico), los resultados mejoran notablemente. Muchos sistemas de traducción automática de propósito general han sido luego adaptado a dominios de aplicación concretos, como es el caso del programa SYSTRAN en la versión desarrollada por la CE.
Según datos recogidos por Colin Brace, con la utilización generalizada del correo electrónico en las instancias administrativas europeas a comienzos de la década de 1990, la utilización de SYSTRAN se disparó. En 1996 más de 200.000 páginas fueron traducidas por este medio. Sólo un tercio de esas páginas fueron solicitadas por el propio Servicio de Traducciones (SdT) de la Comunidad, el resto fueron traducidas por petición personal y directa de los trabajadores "no lingüísticos" en los diversos departamentos. El SdT realizó una encuesta entre los usuarios del programa en la que se comprobó que se recurría a la traducción automática para:
Los traductores del SdT, reconocían un ahorro del 30% de tiempo cuando las propiedades del documento se adecuaban al sistema (documento conocido, diccionario preparado) y el revisor humano era veterano. La encuesta también detectó que el grado de satisfación era superior entre los funcionarios no lingüísticos que entre los traductores y que la principal clave del éxito era su disponibilidad inmediata.
Hutchins y Somers (1992) definían de esta manera el estado de la cuestión en traducción automática: "Lo que se ha logrado es desarrollar programas informáticos que realizan traducciones en borrador en áreas relativamente bien delimitadas. Estas traducciones pueden luego corregirse para obtener versiones finales de calidad por unas tarifas económicas. También pueden dejarse como están, sin revisar, puesto que los especialistas pueden leerlas y entenderlas para informarse. En algunos casos, con los controles adecuados sobre el texto original, es posible alcanzar, de forma automática, resultados de mayor calidad que requieren poca o ninguna corrección. [...] La mayor parte de los textos que se traducen en el mundo no tienen un alto valor cultural ni literario. La mayoría de los traductores profesionales se dedican a satisfacer la enorme y creciente demanda de traducciones de documentos técnicos y científicos, transacciones comerciales, informes administrativos, documentación jurídica, manuales de instrucciones, libros de texto de medicina o agricultura, patentes industriales, panfletos publicitarios, reportajes periodísticos, etc. Parte de este trabajo resulta difícil y constituye un reto, pero un gran porcentaje es tedioso y repetitivo, a la vez que exige precisión y coherencia. La demanda de estas traducciones se está incrementando a un ritmo superior a la capacidad de los traductores, por lo que la ayuda del ordenador ejerce una evidente e inmediata atracción".
El deseo de construir máquinas traductoras procede de mucho antes de que existieran ordenadores. Por ello, desde el momento en que un ordenador estuvo disponible en los años cuarenta, la traducción automática pasó a convirtirse inmediatamente en una de las aplicaciones estrella de la informática. Desde entonces, ha dado tiempo para realizar numerosos experimentos, pequeños y grandes, así como sustanciosas inversiones institucionales e industriales. Para conocer con más detalle la evolución de la traducción automática, el académico británico John Hutchins es una referencia obligada que, por suerte, puede ser consultada libremente en Internet. En esta breve reseña de la TA vamos a seguir el esquema simplificado de Johnatan Slocum, que aborda la historia de la TA por décadas. A sus cuatro décadas hasta 1985 vamos añadir dos más.
1ª Década: Los primeros desarrollos informáticos reseñables se realizaron en el famoso ordenador ENIAC en 1946. Entre los investigadores pioneros hay que citar a Warren Weaver, de la Fundación Rockefeller. Él fue quien dio a conocer públicamente la disciplina anticipando posibles métodos científicos para abordarla: el uso de técnicas criptográficas, la aplicación de los teoremas de Shannon y la utilidad de la estadística, así como la posibilidad de aprovechar la lógica subyacente al lenguaje humano y sus aparentes propiedades universales. El mundo salía de una guerra mundial que en el plano científico había incentivado el desarrollo de métodos computacionales para descifrar mensajes en clave. A Weaver se le atribuye haber dicho "cuando veo un artículo escrito en ruso me digo, esto en realidad está en inglés, aunque codificado con extraños símbolos. ¡Vamos a descodificarlo ahora mismo!" (citado por Barr y Feigenbaum, 1981). No hace falta decir que tanto los ordenadores como las técnicas de programación de aquellos años eran muy rudimentarias (se programaba mediante el cableado de tableros en lenguaje máquina), por lo que las posibilidades reales de probar los métodos eran mínimas.
2ª Década: En 1951 el prestigioso Instituto de Tecnología de Massachussetts (MIT) puso a uno de sus especialistas a trabajar con dedicación exclusiva en TA, Yehoshua Bar-Hillel. Un año más tarde se organizó el primer simposio de la TA con temas como los lenguajes controlados, los sublenguajes, la necesidad de la sintaxis, o la posibilidad de prescindir de la intervención humana. La primera demostración pública de un traductor automático se llevó a cabo en 1954, en la Universidad de Georgetown, con ayuda de IBM y la participación del investigador Leon Dostert. Se seleccionaron cuidadosamente 49 oraciones en ruso que se tradujeron al inglés con un vocabulario de 250 palabras y 6 reglas gramaticales. El éxito mediático de la demostración fue notable y en los EEUU se dedicaron importantes partidas presupuestarias (la mayoría aportadas por el Ministerio de Defensa) para traducir del ruso, francés y alemán. Fue un momento de euforia inicial, que llevó a plantear el objetivo de la fully automatic high quality translation (FAHQT). Entre los desarrollos pioneros de aquella década hay que destacar los de las universidades de Georgetown y Texas, donde se establecieron las bases de dos sistemas que todavía perduran, SYSTRAN y METAL respectivamente.
3ª Década: Pero las considerables inversiones iniciales no daban los frutos deseados. Bar-Hillel en 1960 se atrevió a cuestionar la idea de la FAHQT aduciendo que para obtener resultados equiparables a los de la traducción humana habría que incorporar conocimiento semántico y pragmático en proporciones todavía no alcanzables, por lo que recomendó rebajar los objetivos. En 1964 el National Research Council constituyó un comité, ALPAC (Automatic Language Processing Advisory Committee), para evaluar la situación de la TA. Las conclusiones que se publicaron dos años más tarde tuvieron efectos demoledores: "..no se ha obtenido traducción automática para textos científicos genéricos, y tampoco parece que se vaya a obtener a corto plazo". El resultado fue un drástico recorete financiero que literalmente terminó con la investigación en los EEUU. Pese ha ello, fue una época de enormes avances en el plano teórico. Noan Chomsky revolucionó el estudio de las lenguas con la publicación de su Syntactic Structures en 1957. En el campo de la informática nuevos diseños de estructuras de datos y lenguajes de programación de alto nivel (ALGOL, LISP) llevaron al desarrollo de algoritmos y metodologías modulares que han sido fundamentales en la evolución de la disciplina.
4ª Década: El informe ALPAC afectó dramáticamente a la TA en EEUU, pero en Canadá o Europa apenas tuvo incidencia. En 1976 investigadores del grupo TAUM (Traduction Automatique de l'Université de Montréal) presentaron el sitema MÉTÉO, que traducía partes metereológicos del inglés al francés. Es un sistema que ha hecho historia, por la idoneidad de la aplicación y diseño. Ese mismo año la CE decidió recurrir a la TA para hacer frente a la desbordante demanda de traducciones internas en sus diversas sedes administrativas. La Comisión compró las licencias para desarrollar SYSTRAN y adaptarlo a sus necesidades. Poco después, con la idea de impulsar la investigación en Europa y elevar la calidad de las traducciones, la propia Comisión financia el ambicioso proyecto EUROTRA. Esta etapa, que abarca todos los ochenta, se caracteriza por un fuerte desarrollo de los métodos simbólicos y una gran vitalidad de la investigación en sintaxis (gramáticas basadas en la unificación de rasgos) y en semántica (formalismos basados en la lógica de predicados). Sin embargo, los avances en el plano teórico no acababan de trasladarse al terreno de los resultados.
5ª Década: Sin duda relacionadas con las conclusiones del informe Danzin, encargado en 1991 por la CE, hubo en Europa dos malas noticias relacionadas con la TA. Por el lado institucional, la CE decidió cancelar definitivamente la financiación de EUROTRA; por el lado empresarial, PHILIPS inesperadamente da por terminado uno de los proyectos de más prestigio entre los especialistas, ROSETTA. Paralelamente en Japón, se aplica una política de moderación presupuestaria tras las fabulosas inversiones de los años precedentes. En este contexto de declive generalizado, hace su aparición en el mercado un nuevo tipo de producto de traducción asistida, de diseño muy distinto a los anteriores. Son los programas de gestiónde memorias de traducción, dados a conocer primeramente por IBM (TranslationManager) y posteriormente llevados al gran público por las empresas alemanas TRADOS (Translator's Workbench) y STAR (TRANSIT), y la española ATRIL (DÉJÀ-VU). Otro aspecto destacable de esta etapa es el desarrollo de Internet, así como el cambio de enfoque de la traducción hacia la localización.
6ª Década: En la actualidad estamos ante el comienzo de una etapa nueva. La globalización de empresas y mercados lleva pareja la necesidad de adaptar localmente productos y servicios. Herederas del pasado, un buen número de tecnologías se están integrando y complementando en arquitecturas híbridas, que conciben la traducción como un eslabón más en el complejo ciclo de la información en un medio que ahora sí es electrónico. El leitmotiv de todos estos desarrollos es Internet, con implicaciones que todavía no podemos anticipar, pero que en gran medida dependen de cómo se resulvan la propiedad intelectual y los derechos de explotación de los recursos lingüísticos que se van acumulando.
Los métodos aplicados a la traducción automática se pueden dividir en dos grandes familias:
Desde el punto de vista teórico son aproximaciones radicalmente contrapuestas que dan origen a sistemas de diseño muy distinto. Los sistemas basados en reglas han sido influidos en su concepción teórica por los avances en Lingüística Generativa e Inteligencia Artificial, sobre todo a partir de la década de 1970. Son estos sitemas los que por lo habitual se consideran propiamente como sistemas de "traducción automática". Los sistemas basados en analogías han hecho su aparición en la década de 1990 y aplican métodos de proximidad estadística sobre muestras de textos previamente traducidos. Aplican técnicas afines a las utilizadas en los sistemas de reconocimiento del habla y en la Lingüística de Corpus. Algunos autores los describen como sistemas de "traducción asistida".
Hasta los años noventa una de las premisas más firmes entre la comunidad de investigadores ha sido considerar la traducción como un problema fundamentalmente de equivalencia semántica. Esta premisa se asienta en el supuesto, que se remonta a Leibniz, y que recogieron Frege y Montague, padres de la semántica contemporánea, de que todas las lenguas del mundo comparten una misma subestructura lógica. Se sigue así que si fuéramos capaces de descubrir y formalizar esta subestructura, el problema de la traducción estaría resuelto. Con esta idea los investigadores han tratado de resolver el problema de la equivalencia conceptual, bien a través de representaciones neutras y comunes -técnica de interlingua- o proyectando representaciones intermedias entre pares de lenguas -técnica de transferencia. Entre los modelos más utilizados para el tratamiento computacional de la semántica cabe destacar los siguientes: redes semánticas (Simmons y Slocum, 1972), preferencias semánticas (Wilks, 1973), gramáticas de caso y valencias (Somers, 1987), representaciones conceptuales (Carbonell et al, 1981; Nirenburg et al, 1985), transferencia léxica (Melby, 1988; Alonso,1990), semántica léxica (Dorr, 1993) y desambiguación léxica (Masterman, 1957; Amsler y White, 1979).
Este supuesto teórico constituye seguramente el factor que más ha perjudicado al desarrollo de sistemas de traducción útiles para los traductores. Hasta fechas recientes, sólo algunos observadores autorizados, como Melby (1995) o Kay (1997), se han atrevido a alzar voces críticas. Melby has sido el primero que de manera explícita ha cuestionado la hipótesis de la universalidad conceptual entre las lenguas. Los traductores profesionales han dudado siempre de la validez de esta idea, como queda reflejado en algunos populares foros de Internet (Lantra-l). En el campo de la traductología, además, existen estudios recientes que describen otros niveles de equivalencia de no menor importancia que el semántico. Nord (1993), como autora más destacada en el estudio de la equivalencia en traducción, propone dos dimensiones más, la equivalencia estilística y la equivalencia pragmática. Por otro lado, Hatim y Mason (1990), insisten en la importancia de considerar la traducción una cuestión de índole sobre todo pragmática, más que meramente lingüística, y proponen un nivel más abstracto de equivalencia, en el plano de los símbolos sociales y culturales, esto es, de la semiótica.
Vamos a repasar un poco más detenidamente las dos familias de métodos utilizados en la traducción automática, considerando los subtipos más importantes.
En la traducción por reglas destacan dos métodos que se caracterizan por utilizar representaciones intermedias. Por este motivo, se conocen como métodos indirectos de traducción por reglas. Así pues, una distinción preliminar es la que distingue los métodos directos de los indirectos. En los métodos directos no se utiilizan representaciones intermedias y la traducción se realiza en un único paso: se consultan las palabras de la lengua de origen en el diccionario y directamente se generan sus correspondencias en la lengua meta, aplicando sólo algunas reglas ad hoc de flexión, concordancia y reordenamiento. Pero esta técnica tan sencilla de traducción palabra por palabra hace tiempo que se ha abandonado por inviable y todos los sitemas conocidos, incluso los que traducen entre lenguas muy cercanas como el español y el catalán (InterNOSTRUM), proclaman utilizar representaciones intermedias de uno u otro tipo. Existen dos tipos de métodos indirectos: el de interlingua y el de transferencia.
El método de interlingua plantea la traducción a traves de una única representación intermedia, común a las lenguas entre las que se va a traducir, lo que permite que la traducción se realice en sólo dos fases: análisis y generación. En su concepción teórica, recoge de manera fiel la idea de los universales lingüísticos y tuvo su época más fecunda en los años setenta, como aplicación de los modelos de representación del conocimiento que proponía la Inteligencia Artificial. Suelen recomendar este método quienes mantienen que "para traducir un texto antes hay que comprenderlo". La información semántica suele estar recogida en una base de conocimientos (un modelo del mundo) accesible durante el proceso de traducción.
Este método fue muy popular en Japón durante los setenta y ochenta, décadas en las toda empresa informática que se preciara debía contar con su propio proyecto de traducción: ATLAS (Fujitsu), PIVOT (NEC), etc. Un proyecto japonés que continua en la actualidad es UNL (Universal Networking Language, de la United Nations University). En EEUU se han realizado varios proyectos basados en interlinguas: KBMT (Carnegie Mellon University), ULTRA (New Mexico State University), PANGLOSS (CMU, NMSU y University of Southern California), UNITRAN (University of Maryland), pero se trata en todos los casos de proyectos de investigación realizados en centros universitarios, ninguno de los cuales ha llegado a la fase de comercialización. En Europa se pueden reseñar dos proyctos de inspiración interlingüe, DLT (de la empresa holandesa BSO) que utiliza el esperanto como interlingua, y ROSETTA (PHILIPS), basada en la gramática de Montague.
El aspecto distintivo del método de transferencia es que propone dos representaciones intermedias, una por cada lengua del par de traducción. Sobre estas representaciones se organizan el análisis del texto de origen y la generación del texto meta, de modo que la traducción se realiza en tres fases: análisis, transferencia y generación. El nivel al que se realiza la transferencia puede variar de un sistema a otro. La transferencia se puede realizar tanto a nivel léxico, como sintáctico, o semántico.
La transferencia semántica queda muy cerca de la técnica de interlingua. Los sistemas más conocidos diseñados con este método han sido: METAL, MÉTÉO, SUSY, EUROTRA, LOGOS y GETA (Universidad de Grenoble).
El cambio de enfoque en los noventa se ve favorecido por el drástico abaratamiento de los micoroprocesadores y las unidades de almacenamiento. Con ello comienzan a proliferar las colecciones de textos en formato electrónico y su disponibilidad favorecida por Internet es una invitación a probar los métodos probabilísticos y conexionistas que tan buenos resultados habían dado ya en el tratamiento de corpora orales. El número de sistemas diseñados se multiplica (Catizone y otros 1993, Kay y Röscheisen 1993; Vogel y otros 1996, Wu 1996 y Tillmann y otros 1997), de forma que puede decirse que el paradigma de la traducción por reglas ha perdido numerosos adeptos en beneficio de la traducción por analogías (Jones 1992). Vamos a repasar cuatro aspectos de este enfoque: traducción estadística, traducción basada en ejemplos, alineación de corpora paralelos y memorias de traducción.
La estadística como método útil en traducción automática ya fue objeto de reflexión por parte de Warren Weawer en 1949. Su retorno a escena se produce en 1990, con el sistema CANDIDE, desarrollado por el grupo del Thomas J. Watson Center de IBM en Nueva York (Brown et al. 1990). Tras el éxito logrado mediante técnicas estocásticas en el reconocimiento del habla, el grupo se decidió a probar suerte en la traducción. El enfoque se planteó desde el postulado de probar a no usar otra información para el análisis y la generación que no fuera la estadística. El experimento se realizó sobre el corpus Hansard de las Actas del Parlamento canadiense (unos tres millones de oraciones en inglés y francés). Primero se alinearon oraciones, grupos de palabras y palabras sueltas, para después calcular las probabiliades de que una palabra de una oración en una lengua se correspondiera con otras palabras en la traducción. Los resultados sorprendieron a los propios investigadores, ya que casi la mitad de las oraciones traducidas eran exactamente como las contenidas en el texto original o tenían el mismo sentido aunque con palabras distintas. El sistema no se llegó a comercializar, pero supuso un hito histórico en la reorientación de las investigaciones. Entre las aportaciones más recientes cabe destacar la del grupo ISI de la University of Southern California, que desarrolla EGYPT, un paquete de software para construir sistemas basados en la estadística a partir de corpora bilingüe.
Un enfoque similar a la traducción estadística también basado en la disponibilidad de corpora bilingües es la traducción basada en ejemplos. Fue inicialmente propuesto en 1981 por el veterano investigador japonés Makoto Nagao, pero la técnica no fue probada hasta finales de la década de manera simultánea por el propio Nagao en la Universidad de Kyoto y por el grupo del proyecto DLT (Sadler, 1989) en Holanda. La hipótesis es que los textos traducidos pueden servir de modelo a las nuevas traducciones. El método funciona mediante la extracción y selección de oraciones o sintagmas en un corpus de textos bilingües, previamente alineado. Tsuji y otros (1991) y Sumita e Iida (1991) han aplicado enfoques híbridos similares a éste. La traducción por ejemplos está en la base del desarrollo de las denominadas memorias de traducción (Sato y Nagao, 1991).
La traducción basada en analogías depende crucialmente de los corpora bilingües, lo que ha hecho que las técnicas de alineación se hayan convertido en una de las áreas de investigación de mayor interés en traducción automática. Alinear es hacer explícitas las relaciones de correspondencia entre segmentos del corpus bilingüe. Siguiendo a Martínez (1999), se puede hablar de tres enfoques principales:
Las técnicas probabilísticas que se basan en anotaciones sintácticas requieren textos anotaciones previas (Black y otros, 1993). El Corpus Brown o el Penn Treebank (Marcos y Santorini, 1991) han servido para el inglés. En otras lenguas también se conocen corpora con anotaciones sintácticas: en turco (Skut y otros, 1997), en checo (Hajic y Hladká, 1998), en alemán (Oflazer y otros, 1999). En euskara se han etiquetado sintácticamente 10.000 palabras (Ezeiza y otros, 1998). Estos procesos son muy costosos, algunas métricas (Voutilainen, 1997) han concluido que es necesario el trabajo de una persona entrenada durante un año para etiquetar sintácticamente un corpus de 200.000 palabras. Martínez (1998 y 1999) obtiene muy buenos resultados sobre un corpus bilingüe en español y euskara que no dispone de etiquetas sintácticas, aplicando técnicas que aprovechan las etiquetas estructurales introducidas en el proceso de segmentación monolingüe. Esta línea de trabajo es la que el grupo DELi continua en la actualidad en la Universidad de Deusto.
La traducción basada en analogías ha experimentado su mayor desarrollo en una tecnología conocida como "memoria de traducción" (MBMT, Memory-based Machine Translation). La técnica consiste en almacenar traducciones, realizadas manualmente y validadas por un traductor humano, para reutilizarlas posteriormente en la traducción de textos similares. Esta tecnología ha sido llevada al mercado con un considerable éxito por un número creciente de paquetes de sofware, que incluyen los módulos de gestión de las memorias, además de programas para crear y mantener bases de datos terminológicas, alineadores automáticos y filtros para la conversión de formatos. Los más conocidos son: DÉJÀ-VU (ATRIL), Translator's Workbench (TRADOS), TRANSIT (STAR), SDLX, Eurolang Optimizer (LANT), CATALYST (ALCHEMY), WORDFAST, etc. Hoy por hoy, el lider indiscutible en el mercado es el producto de la empresa alemana TRADOS, seguido cada ve más de cerca por DÉJÀ-VU, pero la competencia en los próximos años va a ser feroz. Algunos programas (WORDFAST), se ofrecen gratuitamente, como último recurso para captar usuarios. Así que parece que el monopolio tan temido por algunos está lejos de consolidarse. Sánchez-Gijón (2001) y Nogueira (2002) han realizado estudios comparativos con interesantes resultados y valoraciones personales.
Para terminar con el curso, vamos a hacer un repaso un poco más pormenorizado de algunos de los sitemas clásicos de traducción por reglas que han conseguido pervivir hasta nuestros días. Revisaremos los más destacados hasta finales de los noventa, para centrarnos después en los que han pasado a estar disponibles por Internet. Estos últimos interesan especialmente porque en ellos hay que basarse para realizar los ejercicios prácticos del curso. Como colofón añadiremos un par de comentarios sobre la línea central por la que avanzará la traducción automática en el futuro, la localización (materia sobre la cual existe un módulo separado).
Sin duda el más relevante de los sitemas nunca diseñados ha sido SYSTRAN. De él hay que decir que no se trata de un sistema único, sino de una familia de sistemas con un ancestro común. Este ancestro surgió a finales de la década de los cincuenta de la mano de Peter Toma en la Universidad de Georgetown. En su devenir posterior, pasó por la Universidad de Saarland, en 1964, pionera en lingüística computacional en Europa. (En Saarbrücken se desarrollaron más adelante el prototipo SUSY y algunos de los módulos de EUROTRA.) De vuelta a EEUU, en 1968 Toma fundó Latsec Inc. en La Jolla, California, animado por un contrato de colaboración con la USAF (fuerzas aéreas de EEUU). SYSTRAN fue usado por la NASA en el desafortunado proyecto espacial Apollo-Soyouz entre los años 1974-1975. Esta experiencia le dio prestigio y Toma fue invitado a hacer una demostración entre el par inglés/francés para la CE. Convencida por los resultados, en 1975 la Comisión adquirió la licencia y comenzó a desarrollar sus propios pares de lenguas, adaptando las gramáticas y los lexicones a las propiedades de los textos administrativos internos. En la actualidad el sistema de la CE dispone de 17 pares de lenguas que se han integrado a una red local de servicios lingüísticos, EURAMIS (Strandvik, 2001), que goza de gran popularidad entre los trabajadores de la Comisión. En la década de 1980 otras empresas adquirieron los derechos de explotación: World Translation Corporation en Canadá, SYSTRAN Institute en Alemania, SYSTRAN Corporation en Japón, de manera que durante unos años se produjo una considerable dispersión entre las distintas versiones del programa. A principios de los noventa, la empresa francesa Gachot adquirió todas las filiales, salvo la de la CE, y el sistema se hizo muy popular en Francia, por su accesibilidad a través de Minitel. En 1994 se ofrecía de manera gratuita en los chat de CompuServe. En 1995 salió al mercado una versión adaptada para Windows. Pero la consagración definitiva se produjo en 1997, cuando el sitio de Internet AltaVista llegó a un acuerdo con SYSTRAN para ofrecer el servicio de traducción gratuito por web, BABELFISH. En este momento SYSTRAN es el sistema de traducción más desarrollado (con 35 pares de lenguas disponibles) y más utilizado (1.000.000 de traducciones a través de BABELFISH).
El segundo sistema en veteranía e importancia es sin duda METAL. Se trata de otro superviviente de los sesenta, que al igual que SYSTRAN ha deambulado por los dos continentes. El diseño original se fraguó en 1961 en el LRC (Linguistic Research Center) de la Universidad de Texas en Austin, bajo la dirección de Winfred Lehmann, para el el par inglés/alemán. El destino de METAL pasa al viejo continente en 1978, momento en que la empresa SIEMENS se hizo con los derechos de desarrollo y explotación. Al par inicial se le añaden pronto siete, con las principales lenguas europeas (francés, holandés, danés y español). En 1994 SIEMENS-NIXDORF cede el desarrollo del sistema a un conjunto de filiales creadas al efecto, entre ellas Sietec en Alemania, e Incyta en España. En 1997 estas empresas son absorbidas por el grupo belga Lernout & Hauspie. En la actualidad, los distintos desarrollos de METAL dependen de la empresa Sail Labs. Cabe destacar que en España se han desarrollado los pares de lenguas inglés/catalán (proyecto ITACA) y español/catalán (IncytaEsCA), sufragados por la Generalitat de Catalunya; así como el par español/gallego, sufragado por la Xunta de Galicia.
Para abordar la traducción automática entre el español y el inglés, seguramente el sistema más completo y que mejores resultados ofrece es el desarrollando por la Organización de la Salud Panamericana (PAHO/OPS), situada en Washington DC y fundada en 1950. Existen dos versiones, cada una para cada par de lenguas: SPANAM (español-inglés), que empezó a desarrollarse primero, en 1979; y ENGSPAN (inglés-español), en desarrollo desde 1984. Los responsables dicen que desde que se pueso operativo se han procesado más de 35 millones de palabras, con un aumento de la productividad de los traductores de entre un 30% a un 50%. Los sistemas están instalados en una red de área local y son utilizados también por el personal de otras dependencias técnicas y administrativas en la sede de la OPS. Cada diccionario del sistema contiene más de 75.000 palabras, frases idiomáticas y reglas contextuales. Los programas y los diccionarios se mejoran constantemente con las sugerencias de los usuarios. Ambos sistemas han salido recientemente al mercado en versiones compatibles con Windows a un precio asequible (1.600 ).
Por su lado, el gigante de la informática IBM desde mediados de los ochenta ha centrado sus esfuerzos de traducción automática en el proyecto LMT, dirigido por Michael McCord y desarrollado simultáneamente en los laboratorios de EEUU, Alemania, España e Israel. Se trata de una implementación en Prolog (LMT son las siglas de Logic-programming Machine Translation) que adopta la estrategia de transferencia. Se han desarrollado 12 pares de lenguas y en la actualidad se encuentra disponible con el nombre comercial WebSphere. IBM también dispone de un software de memorias de traducción, TranslationManager, que desde 1999 integra los programas de traducción automática de LOGOS, otra de las empresas veteranas en el sector. Este programa también se puede combinar con el traductor italiano/inglés PeTra, desarrollado en colaboración con IBM por la empresa italiana SYNTHEMA.
Desde comienzos de la década de 1990 la mayoría de los programas de traducción se han adaptado al ordenador personal. Dos de los primeros en hacerlo fueron PC-Translator (de Linguistic Products) y Power Translator (de Globalink). Globalink se había fusionado antes con MicroTac (responsable de la gama de productos Language Assistant) y durante unos años (1995 -1998) fue lider de ventas al llevar al mercado sus programas a un precio muy reducido (unos 60 ). Según datos de Ovum Ltd., Globalink obtuvo en 1995 el triple de beneficios que METAL y diez veces más que SYSTRAN o LOGOS. En 1998 Globalink fue absorbida por Lernout & Hauspie y en la actualidad desconocemos su destino tras las dificultades financieras de la empresa en 2000. En lo que respecta a empresas japonesas, Fujitsu, una de las empresas pioneras hace años que oferta versiones para PC de su veterano sistema ATLAS, también comercializado como TransLinGo, a precios moderados (entre 100 y 600 según las prestaciones). Otros traductores de japonés adaptados a Windows son LogoVista, de Language Engineering Corporation, y Tsunami y Typhoon de Neocor Technologies (posteriormente absorbida por Lernout & Hauspie). De Rusia procede el programa ProMT (antes llamado Stylus), así como PARS, especializados en la traducción del ruso a otras lenguas europeas. Otros progrmas para PC desarrollados en Europa son, entre los más destacables, WINGER, especializado en la traducción del danés, pero con soporte otros pares de lenguas europeas, y TranSmart, desarrollado por Nokia para el par finlandés/inglés.
En España, se han desarrollado con éxito varios programas para traducir entre el par español/catalán. Además del desarrollado por Incyta (ahora Sail Labs), que también lo ha hecho para el gallego, cabe destacar los siguientes sistemas: SALT, de la Conselleria de Cultura de la Generalitat Valenciana, sistema interactivo para Windows; InterNOSTRUM, para Linux, desarrollado en la Universitad de Alicante y financiado por la Caja de Ahorros del Mediterráneo; el sistema AutomaticTrans de la empresa barcelonesa Softlibrary (traductores del diario El Periódico al catalán); así como el programa ARA, de la empresa valenciana ARA-AutoTrad.
El panorma de productos que incorporan tecnologías de traducción ha experimentado un revulsivo lógico con la generalización de Internet a partir de 1995. CompuServe se adelantó ofrenciendo SYSTRAN en sus espacios de chat. La puesta en marcha a partir de 1997 del servicio BABELFISH de traducción automática gratuita (para los pares francés, alemán y español del y al inglés) en el portal AltaVista supuso un destacable hito histórico. Desde entonces los acontecimientos se han acelerado. Varias empresas han desaparecido o han sido absorbidas por otras: Logos por IBM; Globalink y Neocor Technologies por Lernout & Hauspi. El precio de adquisición de los programas se ha abaratado considerablemente y su distribución agilizado a través de portales generalistas, como World Language Resources (http://www.worldlanguage.com/). Con Internet son posibles dos cosas antes inimaginables. Por un lado, muchos fabricantes permiten a sus potenciales clientes el acceso a versiones de demostración temporales o parciales, fáciles de conseguir e instalar. Por otro, y más interesante, ahora cualquier usuario con acceso a Internet puede probar las posibilidades de la traducción automática en alguno de los cada día más numerosos sitios que ofrecen servicios abiertos y gratuitos:
Es necesario puntualizar que, salvo para las traducciones al catalán, ninguno de los sitemas en la lista permite obtener traducciones de calidad, por las razones que se han discutido anteriormente. Todos ellos son sistemas de traducción por reglas, con cobertura amplia a costa de una calidad generalmente muy baja. La alternativa es restringir la cobertura. Para mejorar la calidad aplicando métodos basados en analogías con mayor cobertura harían falta grandes cantidades de corpora paralelos, que nadie en la actualidad dispone (Abaitua, 2001).
Antes de terminar, merece la pena dedicar unos minutos a la modalidad de traducción que mejor encaja en el medio electrónico, la localización. Este enfoque tiene dos aspectos novedosos: tratar la traducción como un eslabón más en el ciclo de vida de la documentación; y añadir a la idea de traducción la de adaptación del producto a las demandas del mercado.
Si pensamos en la cadena de producción de las industrias de la información, cada vez tiene menos sentido abordar la traducción como una tarea autónoma o aislada. La mayor parte de los textos que se generan a diario no son especialmente originales, se repiten una y otra vez, con pequeños cambios y actualizaciones: textos comerciales, manuales de referencia, instrucciones de uso, disposiciones legales, informes, partes, teletipos... Este tipo de producción documental supone el porcentaje mayoritario de demanda de traducciones. Por ello es importante disponer de métodos eficaces que permitan controlar no solo la traducción, sino todo el ciclo de vida de los documentos (concepción, redacción, revisión, traducción, difusión, catalogación, almacenamiento, reutilización, control de calidad). En este orden de cosas, en los últimos años han adquirido gran importancia los estándares y normas internacionales, tanto en la producción documental (SGML/XML), como en el control de calidad, bien del proceso industrial en su conjunto (ISO 9000), o bien específicamente de la traducción (DIN 2345).
Cuando un producto o un servicio se lleva a un nuevo mercado, diferente del inicial para el que fue diseñado, no sólo tiene que ser "traducido" a la lengua de los nuevos clientes, sino que debe tener en cuenta todas las particularidades culturales, sociales, económicas, etc. de ese nuevo mercado. Ello implica la consideración de muchas más cuestiones que las meramente lingüísticas y puede suponer la revisión completa del propio diseño del producto. Un buen diseño es aquel que separa los aspectos ligados al uso particular en un mercado de las propiedades generales del producto, de forma que permita una internacionalización efectiva y facilite su posterior adaptación a otros mercados locales. En la medida en que los mercados se internacionalizan, productos y servicios deben adaptarse a los requisitos locales y gustos personales de los usuarios.
Qué duda cabe que el mundo no por estar cada día más globalizado dejará de ser multilinüe y multicultural. Por ello, en esta nueva era que se denomina sociedad de la información , las tecnologías de la traducción desempeñarán un papel estelar.
Reune los resultados de los ejercicios y realiza una evaluación indicando los fallos, las razones que los pueden haber ocasionado (mal diseño, carencias en las gramáticas, en los diccionarios) y cómo y en qué deberían mejorar. Señala las principales virtudes y defectos de los sistemas utilizados, contrastando las ventajas y difenecias. Trata de documentar el trabajo con bibliografía que puedes encontrar en Internet.
El trabajo debe constar de un resumen (un párrafo), una introducción (una página), el desarrollo (varias secciones), una conclusión (una página) y una lista de fuentes utilizadas o citadas.
En la red se puede encontrar todo tipo de material informativo relacionado con las tecnologías de la traducción. Para empezar es recomendable consultar sitios de referencia: The Translation Reference Center, http://www.transref.org/; ForeignWord, http://www.foreignword.com/es/. Son muy útiles también las revistas en línea: Translation Journal, http://www.accurapid.com/journal/; Tradumàtica, http://www.fti.uab.es/tradumatica/revista/; Human Language Technologies News,http://www2.hltcentral.org/lejournal/index.asp. Otra fuente de información son las páginas de las asociaciones especializadas en traducción y localización: European Association for Machine Translation (EAMT) , http://www.lim.nl/eamt/; Association for Machine Translation in the Americas (AMTA) , http://www.isi.edu/natural-language/organizations/AMTA.html;Localization Industry Standards Association (LISA), http://www.lisa.unige.ch. Es posible acceder a las publicaciones de autores como W. John Hutchins, http://ourworld.compuserve.com/homepages/WJHutchins/; Harold L. Somers, http://www.ccl.umist.ac.uk/staff/harold; Doug Arnold, http://clwww.essex.ac.uk/~doug; Eduard Hovy, http://www.isi.edu/natural-language/people/hovy.html; Sergei Nirenburg, http://crl.nmsu.edu/SN.bibliography/sn.bib.htm; etc. Otra posibilidad es acceder a los directorios de los buscadores como http://www.google.com, http://www.altavista.com, o http://www.yahoo.com, por citar sólo algunos.
En la web del Centro "Ramón Piñeiro", http://www.cirp.es/ es posible ampliar la información sobre el sistema de traducción español-gallego. Sobre traductores al catalán, hay varios sitios que recogen colecciones de enlaces útiles, como el de la asociación Softcatalà, http://www.softcatala.org/llengua.htm, o el de la Generalitat de Catalunya, http://cultura.gencat.es/llengcat/informat.
Doug Arnold, Balkan, L., Meijer, S., Humphreys, R.L. Sadler, L. 1993. Machine Translation: An Introductory Guide. http://clwww.essex.ac.uk/MTbook/
Paul Bennett. 1994. Translation Units in Human and Machine. Babel 40:12-20.
Bert Esselink. 1998. A practical guide to software localization. John Benjamins.
Ethnologue. 2001. Languages of the World. http://www.ethnologue.com
W. John Hutchins & Harold L. Somers. 1992.An Introduction to Machine Translation. Academic Press.
W.John Hutchins. 2001. Machine translation over fifty years. Histoire, Epistemologie, Langage XXII-1:7-31. http://ourworld.compuserve.com/homepages/WJHutchins/HEL.htm.
Martin Kay. 1997. The Proper Place of Men and Machines in Language Translation. Machine Translation 13:3-23.
Alan K. Melby. 1995. The Possibility of Language. A discussion of the nature of language with implications for human and machine translation. John Benjamins .
Sergei Nirenburg. 1987. Machine Translation: Theoretical and Methodological Issues. Cambridge University Press.
Johnatan Slocum. 1988. Machine Translation Systems. Cambridge University Press.
ALPAC. 1966. Language and machines: computers in translation and linguistics. A report by the Automatic Language Processing Advisory Committee. Washington, DC, National Academy of Sciences.
Y. Bar-Hillel. 1960. The present status of automatic translation of languages. Advances in Computers 1: 91-163
A. Barr & E.A. Feigenbaum. 1981. The Handbook of Artificial Intelligence.
Douglas Biber & Edward Finegan. 1986. An initial typology of English text types. Jan Aarts y Willen Meijs (comp.) Corpus Linguistics II: New Studies in the Analysis and Exploitation of Computer Corpora. Rodopi: 19-46.
Daniel Jones. 1996. Analogical Natural Language Processing. UCL Press
Susan Hubbard. 1996. Information Skills for an Information Society: A Review of Research
Hubert Murray. 1996. Methods for Satisfying the Needs of the Scientist and the Engineer for Scientific and Technical Communication.
Danilo Nogueira . 2002. Translation Tools Today: A Personal View. Translation Journal 6-1.
V. Sadler. 1989. Working with analogical semantics: disambiguation techniques in DLT. Foris
Pilar Sánchez-Gijón. 2001. Catàleg de sistemes de memòries de traducció. Tradumàtica 0.
S. Sato & M. Nagao. 1990. Toward Memory-based Translation. Proceedings of the 13th International Conference on Computational Linguistics. Helsinki: 247-252.
E. Sumita y H.Iida. 1991. Experiments and Prospects of Example-Based Machine Translation. Proceedings of the Association for Computational Linguistics. Berkeley: 185-192.
Ingemar Strandvik. 2001. Las memorias de traducción en la Comisión Europea. Tradumàtica 0.
Anna Trosborg. 1997. Text typology: register, genre and text types. Text typology and translation. 3-23. John Benjamins.