Introducción a la traducción automática: 1 - 3

2 Dimensiones de la traducción automática

Llamamos dimensiones a los factores que hay que considerar a la hora de utilizar la traducción automática. Estas dimensiones configuran las coordenadas de un espacio de posibilidades en el diseño y aplicación de los programas. Vamos a hablar de seis dimensiones:

Tipología de textos

Los traductores saben muy bien que cada traducción es un mundo. Hay una gran variedad de textos, cada uno con sus peculiaridades. No es lo mismo traducir una convocatoria de asamblea, que una crónica deportiva o una columna de Francisco Umbral. Para abordar estas diferencias se suele recurrir a conceptos como género, registro, estilo o tipo (Trosborg, 1997). Las diferencias entre estas nociones no siempre están muy claras, pero son tan fundamentales para traducir manualmente como mecánicamente.

Estas nociones se entrelazan y mezclan a la hora de describir un texto concreto. Desde el punto de vista de la traducción automática la discusión sobre el tipo y el género se ha reducido a la distinción de Kay (1992) entre lenguaje singular (remarkable) y no singular (unremarkable), muy similar a la de Melby entre lenguajes de especialidad y lengua común (o lenguaje estático frente a dinámico, según otros autores).

Densidad léxica

La distinción entre lenguajes de especialidad y lengua común tiene relación con otras dos nociones importantes, la de granularidad, también de Melby, y la de densidad léxica de Laviosa (1998). La definición de granularidad se basa en el tamaño de las unidades léxicas en las que se puede segmentar un texto. Los textos de granularidad más gruesa son los que contienen combinaciones mayores de palabras: fórmulas, frases hechas, nombres propios, términos compuestos. La densidad de un texto es inversamente proporcional a la granularidad. A mayor densidad, menor granularidad. Los textos que muestran una densidad alta son generalmente de ámbitos de especialidad. Muchas normas y órdenes de las que se publican en los boletines oficiales son de granularidad 1 y densidad 100, ya que se componen de una única fórmula administrativa (como la concesión de una licencia para construir una casa, por ejemplo).

Podemos decir en resumen que

La noción de granularidad tiene que ver con un problema muy conocido en teoría de la traducción, que es la segmentación de los textos en unidades de traducción (Bennett, 1994). Es importante distinguir las unidades por su extensión, es decir, por el número de palabras que las forman, y por su cohesión, o posibilidad de interpretarlas conjuntamente o por separado:

  1. Categorías morfosintácticas: la unidad básica en todos los sistemas de traducción automática suele ser la palabra (o lexía simple). Las categorías morfosintácticas permiten establecer abstracciones sobre las palabras (el/the > Det; eye/ojo > N; happy/feliz > A; eat/comer > V;over/sobre > P) y son la base de las gramáticas de estructura sintagmática: SN :=Det N.
  2. Subcategorías: dentro de cada categoría se da una gran variedad de comportamientos, la mayoría divergentes entre una lengua y otra. Los patrones de subcategorización permiten plasmar estas divergencias: subj(x) likes obj(y) / subj(y) gusta obj(x).
  3. Colocaciones: categorías y subcategorías muestran con frecuencia "hábitos de colocación sintagmática" particulares: fast waltz, rapid movement, quick action, speedy recovery.
  4. Lexías complejas (palabras compuestas): combinaciones de palabras que lexicalizan: comida rápida/ fast food; movimientos oculares rápidos/ rapid eye movement (REM).
  5. Locuciones: grupos preposicionales o conjuntivos fijos: after all/ när allt kommer omkring, still / a pesar de todo.
  6. Giros idiomáticos: son grupos sintagmáticos con flexibilidad sintáctica: Estaba más loca que una cabra/ She was as nutty as a fruitcake.
  7. Fórmulas: incluye proverbios, Más vale pájaro en mano que ciento volando; títulos de obras, películas Monthy Pyton and the Holy Grail / Los caballeros de la mesa cuadrada; y otros elementos fijos del discurso, como este extracto de una escritura inglesa To do all such other things as are incidental or conductive to the above objects or any of them.

Esta clasificación, que se propone en Abaitua (2001), incluye unidades que son composicionales (a-c), o de menor cohesión, ya que el significado del segmento completo puede entenderse a partir de los significados parciales, y otras de mayor cohesión (d-g). Un sistema de traducción automática debe ser capaz de reconocer las unidades mayores primero, antes de tratar cada palabra por separado.

Distancia lingüística y cultural

Un tercer aspecto que va a incidir de manera fundamental en la dificultad de traducir por medios mecánicos es la distancia lingüística y cultural entre lenguas. Esta dimensión, que es clave para acertar en el diseño de un traductor mecánico, paradójicamente no ha sido tenida en cuenta hasta épocas recientes. Hoy sólo podemos entender que proyectos como EUROTRA fallaran tan estrepitosamente por la ingenuidad de sus diseñadores, que no fueron capaces de reconocer esta dimensión, o por la desmesurada fe en su metodología (es decir, por su arrogancia científica). Al cabo de los años parece inexplicable que no hubieran sido capaces de construir si no un único sistema, al menos dos subsistemas hábiles, adaptados a cada una de las dos grandes familias lingüísticas europeas representadas en la Unión: la latina (italiano, francés, español y portugués) y la germana (alemán, holandés e inglés). El griego y el danés quedaban fuera, pero podrían haberse adaptado con más o menos dificultad a los subsistemas latino y germánico respectivamente.

La cercanía entre las lenguas latinas es tan grande, que un sistema simple de traducción sintagma por sintagma hubiera dado resultados aceptables muy rápidamente. Problemas tan importantes como el orden de las palabras, la ambigüedad estructural y lógica, o la adecuación de registro habrían sido minimizados por su proximidad lingüística. Esta misma razón es la que ha permitido obtener tan buenos y rápidos resultados en los sistemas de traducción del español al catalán y al gallego. La estrategia de traducción al euskara tiene que ser necesariamente mucho más elaborada, porque las diferencias estructurales entre las gramáticas de las lenguas latinas y la del euskara, en lo referente a los aspectos citados, son muy importantes.

Pero al problema de la distancia lingüística hay que sumar la distancia cultural. Las gramáticas del euskara y del japonés tienen muchos puntos de coincidencia, pero esto no quiere decir que se pueda obtener un sistema con la misma facilidad con la que se obtiene para el gallego y el español. El principal problema para traducir del y al japonés estriba en lo exótico de sus convenciones culturales, sobre todo en aquellas que se manifiestan en la lengua. Las estrategias de comunicación en esta lengua oriental son muy distintas si se las compara con las de las lenguas europeas; no sólo se complica el número de registros y estilos, sino que los giros y expresiones más sencillas de decir las cosas cambian también. Al traducir del y al japonés hay que tener en cuenta más cuestiones que las meramente gramaticales. Las traducciones con base sintáctica producen la mayoría de las veces textos no sólo inadecuados, sino casi siempre totalmente incomprensibles.

Desarrollo lingüístico y recursos

Nadie se atrevería a decir exactamente cuántas lenguas se hablan en el mundo. Se calcula que son unas 6.700, aunque el número exacto depende de lo que se entienda por lengua y de cómo se distinga lengua de variedad dialectal. Se estima que más de 400 están a punto de extinguirse, la mayoría habladas en Australia y en las Américas. También en Europa hay lenguas en estado terminal, siete según el catálogo de Ethnologue (2001). Cuatro de ellas son variedades del Saami, la lengua de los lapones repartidos por Rusia, Noruega y Suecia, países en los que apenas quedan algunas decenas de hablantes.

Poco más de un centenar de las lenguas del mundo pasan de siete millones de hablantes. Pero son todavía menos las que tienen presencia significativa en Internet, principal exponente de la sociedad de la información. Podemos usar el directorio de Google como termómetro de la presencia de estas lenguas y comprobar que sólo 66 están representadas. Llama la atención que lenguas con muchos hablantes, como el vietnamita, hablado por cerca de 68 millones de personas, cuente sólo con 80 páginas referenciadas en el directorio (es decir, poco más de una página por cada mil hablantes); mientras que lenguas minoritarias como el euskara, hablado por menos de un millón de personas, contabilice 4.278 páginas (Google, 26.12.2001). Esto quiere decir que hay 4.532 más páginas en euskara por hablante de euskara que páginas en vietnamita por hablante de vietnamita. En la comparación con otras lenguas la proporción se estabiliza; calculamos 45 páginas más por hablante de euskara que por hablante de húngaro, 21 más que por hablante de español y hasta tres veces más que por hablante de alemán. Estos datos son solo aproximados (seguramente Google no sea muy conocido en Vietnam), pero en todo caso dejan claro que el desarrollo de una lengua no depende del número de hablantes.

Existen muchas razones para subrayar la importancia de este factor, pero se pueden resumir en una: para poder crear herramientas informáticas, como un traductor automático, hace falta disponer de recursos lingüísticos: diccionarios, gramáticas, analizadores, bases de conocimiento y, sobre todo, corpora. El grado de disponibilidad de estos recursos incidirá directamente en la facilidad con la que se podrán generar las herramientas. Para disponer de recursos hay que pasar antes por muchas fases de desarrollo, que van desde la estandarización de una forma de escritura, pasando por la normalización de su uso en el mayor número posible de ámbitos sociales, hasta la promoción de grupos avanzados de investigación en ingeniería lingüística. Si una lengua no ha pasado por la fase de estandarización de su escritura, poco sentido tiene plantear el desarrollo de aplicaciones computacionales.

Directorios como el de Google dan una idea aproximada del grado de desarrollo y vitalidad de las lenguas. Para traducir (se haga por medios mecánicos o manuales), es fundamental que las lenguas tengan un nivel de desarrollo equiparable, porque de lo contrario el traductor deberá duplicar el trabajo, normalizar primero y traducir después. Para ilustrar este problema podemos recurrir a un caso que conocemos muy bien. Cuando se decretó el bilingüismo oficial en el País Vasco, hacia 1979, hubo que realizar un esfuerzo inmenso de desarrollo lingüístico en todos los ámbitos, empezando por el administrativo, pero sin dejar ningún otro atrás, ya que el euskara entró en la administración, pero también lo hizo en los medios de comunicación y en la educación, desde la formación primaria hasta la universitaria. Esto quiere decir que durante veinte años los traductores de euskara han combinado dos funciones, la normalización lingüística y la traducción.

Hay que advertir que la normalización tiene límites. Aunque es posible elevar el desarrollo de una lengua hasta los niveles más altos (técnicos o científicos), no tiene sentido que todas las lenguas intenten equipararse al inglés. Esto es algo que los hablantes de lenguas minoritarias de países desarrollados como Noruega o Finlandia han comprendido muy bien. Cada idioma posee sus ámbitos naturales de uso. A una lengua minoritaria no le perjudica ceder algunos espacios a las lenguas mayoritarias, siempre y cuando su comunidad de hablantes no pierda el apego por la lengua en los ámbitos más íntimos y cotidianos. En países como Francia o España existe el empeño de elevar el francés y el español a la misma cota que el inglés; pero hoy en día esto es absurdo. Es una batalla perdida que no debe ser emulada, y señalo en este sentido al euskara. Es importante poner un orden racional en las prioridades. Muy probablemente la mejor defensa de una lengua minoritaria pasa por la promoción del multilingüismo.

Medio y modo

Desde hace años en los estudios de traducción se distinguen dos actividades claramente diferenciadas. La primera es la interpretación, o traducción de intervenciones orales. La segunda es la traducción de textos escritos. El perfil de los profesionales de una y otra especialidad suele ser muy distinto. Los intérpretes traducen casi siempre sin tiempo para pensar, ni para preparar el texto, o consultar diccionarios. Tampoco pueden repasar o corregir sus traducciones. Su trabajo se realiza de manera simultánea al de la producción del original y conlleva generalmente una gran interacción social. El intérprete está totalmente sometido al contexto en el que se realiza su trabajo, atado a una serie de protocolos y convenciones. Además, el lenguaje oral tiene características muy distintas del lenguaje escrito; es espontáneo, contextualizado, discontinuo y muchas veces agramatical. Por el contrario el traductor de textos escritos se enfrenta a textos que la mayoría de las veces se han escrito con cuidado, que a veces incluso pueden contener valores literarios. Normalmente dispone de tiempo para consultar diccionarios u otras fuentes documentales, y de revisar y corregir sus traducciones. Generalmente este trabajo se desempeña en condiciones de aislamiento, desconectado del entorno social, con el único condicionante de la premura de tiempo.

Aunque en ocasiones se habla indistintamente de traducción de textos orales y escritos, es obvio que representan problemas de índole muy distinta. Análogamente, el medio electrónico ha dado lugar a un tipo de documento y necesidades muy distintas de los medios oral y escrito tradicionales. Cada vez son más numerosos los textos que se generan de manera automática y se conciben con el conocimiento previo de que van a ser tratados por otros sistemas automáticos. En muchos casos, los textos se generan dentro de unas condiciones de control muy estrictas para facilitar su procesamiento posterior. Aunque existe un interés comercial muy grande por los programas de traducción del habla (C-STAR, JANUS , VERBMOBIL, EUTRANS, etc.), y la industria sigue mejorando los programas tradicionales de traducción de textos escritos, el futuro se dirige hacia el tratamiento automático de textos en soporte electrónico. Esta tarea se ha venido a denominar localización, y a ella le dedicaremos un pequeño apartado.

En resumen, podemos distinguir tres modos de traducción según el medio:

Hecha esta distinción, hay que añadir que el medio electrónico es ante todo multimedia, con capacidad para integrar los tres medios y modos descritos.

Fines

Habida cuenta del cúmulo de factores que inciden en el diseño de un sistema de traducción automática, no sorprende que los resultados no satisfagan siempre las expectativas. Por eso, sin duda el factor más importante que se debe tener en cuenta cuando se diseña un programa es definir claramente el uso que se le quiere dar. En el pasado muchos sistemas han sido diseñados con la idea de que sirvan un propósito general, es decir, que sean capaces de traducir cualquier texto; y lo que se han obtenido son programas que proporcionan traducciones muy deficientes. Sin embargo, cuando se delimita más claramente el ámbito de aplicación y ese ámbito se contempla adecuadamente en el desarrollo (en los módulos léxico y sintáctico), los resultados mejoran notablemente. Muchos sistemas de traducción automática de propósito general han sido luego adaptado a dominios de aplicación concretos, como es el caso del programa SYSTRAN en la versión desarrollada por la CE.

Según datos recogidos por Colin Brace, con la utilización generalizada del correo electrónico en las instancias administrativas europeas a comienzos de la década de 1990, la utilización de SYSTRAN se disparó. En 1996 más de 200.000 páginas fueron traducidas por este medio. Sólo un tercio de esas páginas fueron solicitadas por el propio Servicio de Traducciones (SdT) de la Comunidad, el resto fueron traducidas por petición personal y directa de los trabajadores "no lingüísticos" en los diversos departamentos. El SdT realizó una encuesta entre los usuarios del programa en la que se comprobó que se recurría a la traducción automática para:

Los traductores del SdT, reconocían un ahorro del 30% de tiempo cuando las propiedades del documento se adecuaban al sistema (documento conocido, diccionario preparado) y el revisor humano era veterano. La encuesta también detectó que el grado de satisfacción era superior entre los funcionarios no lingüísticos que entre los traductores y que la principal clave del éxito era su disponibilidad inmediata.

Hutchins y Somers (1992) definían de esta manera el estado de la cuestión en traducción automática: "Lo que se ha logrado es desarrollar programas informáticos que realizan traducciones en borrador en áreas relativamente bien delimitadas. Estas traducciones pueden luego corregirse para obtener versiones finales de calidad por unas tarifas económicas. También pueden dejarse como están, sin revisar, puesto que los especialistas pueden leerlas y entenderlas para informarse. En algunos casos, con los controles adecuados sobre el texto original, es posible alcanzar, de forma automática, resultados de mayor calidad que requieren poca o ninguna corrección. [...] La mayor parte de los textos que se traducen en el mundo no tienen un alto valor cultural ni literario. La mayoría de los traductores profesionales se dedican a satisfacer la enorme y creciente demanda de traducciones de documentos técnicos y científicos, transacciones comerciales, informes administrativos, documentación jurídica, manuales de instrucciones, libros de texto de medicina o agricultura, patentes industriales, panfletos publicitarios, reportajes periodísticos, etc. Parte de este trabajo resulta difícil y constituye un reto, pero un gran porcentaje es tedioso y repetitivo, a la vez que exige precisión y coherencia. La demanda de estas traducciones se está incrementando a un ritmo superior a la capacidad de los traductores, por lo que la ayuda del ordenador ejerce una evidente e inmediata atracción".


Joseba Abaitua, enero 2002 Introducción a la traducción automática: 1 - 3