Second International Workshop on Spanish Language Processing and Language Technologies 113-114.

Por otra ruta en traducción automática

Joseba Abaitua

www.deli.deusto.es
Universidad de Deusto

 

 

 


Con el paso de los años en esto de la traducción automática soy cada día más escéptico. Soy cada vez más consciente de la complejidad y riqueza del lenguaje humano y de la distancia astronómica que lo separa de los métodos computacionales que pretenden procesarlo. Paradójicamente, en este acto mezcla de resignación y humildad, de reconocimiento de las limitaciones, se encuentra la clave del optimismo. Es posible llegar muy lejos en la automatización de muchas tareas relacionadas con la traducción si se cambia de ruta, si en lugar de atacar la raíz del problema -pretender emular la complejidad y riqueza del sistema del lenguaje humano-, se evita y rodea, resolviendo primero las cuestiones que son menos complejas y más rudimentarias. De esta otra manera, soslayando el núcleo del problema, pero resolviendo las cuestiones que están al alcance de la tecnología, se puede dar respuesta a un porcentaje muy elevado de situaciones reales.

Las posibilidades creativas del lenguaje humano son abrumadoras (desde el punto de vista formal) y suponen un reto insoluble para la tecnología lingüística, sin embargo, la mayoría de las veces ( 90% ), el lenguaje se usa de manera rutinaria y repetitiva. Y este uso "no creativo" del lenguaje es el que la tecnología puede abordar de manera eficaz.

Cuestiones que se deben tratar:

·            Ciclo de vida de la documentación

·            Localización de aplicaciones (más que mera traducción)

·            Acopio de ejemplos (compilación de corpora)

·            Detección de repeticiones (segmentación)

·            Unidades mayores primero

·            Compartir recursos (TMX por Internet)

Ciclo de vida de la documentación

Muchos textos son únicos e irrepetibles. Se escriben una vez y tras ver la luz en algún medio público, su singular esencia queda almacenada en la oscuridad y anonimato de los archivos. Sólo un porcentaje minúsculo de estos textos sobrevive al olvido y perdura en la memoria colectiva como patrimonio literario. (Aunque con Google, las cosas están cambiando y ya nada se olvida).

Otros textos, sin embargo, se repiten constantemente, con pequeños cambios y actualizaciones. Son textos en los que no se percibe ningún valor literario, pero que perduran en el uso cotidiano (textos legales, comerciales, manuales de referencia, instrucciones de uso, partes de todo tipo). Curiosamente, este tipo de producción documental supone el porcentaje mayoritario de demanda de traducciones. Es importante disponer de métodos eficaces que permitan controlar no solo la traducción, sino todo el ciclo de vida de estos documentos (concepción, redacción, revisión, traducción, difusión, catalogación, almacenamiento, reutilización). La tecnología puede aportar importantes beneficios a las instituciones y empresas que viven esta situación.

Localización

La industria de software ha dado con la solución a un viejo problema de la traductología, "los preceptos de la buena traducción". Lo que la industria ha descubierto es que un producto (una aplicación) que se lleva a un nuevo mercado, diferente del inicial para el que fue diseñado, no sólo tiene que ser "traducido" a la lengua de los nuevos clientes, sino que debe tener en cuenta todas las particularidades culturales, sociales, económicas, etc. de ese nuevo mercado. Ello implica la consideración de muchas más cuestiones que las meramente lingüísticas y puede suponer la revisión completa del propio diseño del producto. Un buen diseño es aquel que separa los aspectos ligados al uso particular en un mercado de las propiedades generales de la aplicación, de forma que permita una internacionalización efectiva del producto y facilite su posterior adaptación a otros mercados locales.

Acopio de ejemplos

Desde el punto de vista teórico, es más interesante analizar las posibilidades creativas del lenguaje humano, pero desde el punto de vista ingenieril, lo práctico es recopilar ejemplos de usos reales y comprobar su frecuencia y modo de utilización. Este acopio de datos es lo que se conoce como compilación de corpora, y es una actividad que se ha generalizado sobremanera en los últimos años.

Detección de repeticiones

El uso no creativo del lenguaje humano quiere decir que muchos patrones lingüísticos se repiten y reutilizan constantemente. Si se analizan estos patrones desde el punto de vista lingüístico se descubren muchas veces propiedades difíciles de explicar, que se resisten a las reglas simbólicas de la gramática y que a duras penas admiten generalizaciones. Son los conocidos usos colocacionales e idiomáticos; a los que hay que añadir las expresiones convencionales y formulaicas. Los métodos que permiten su estudio son de tipo estadístico, y en relación con la traducción, lo que interesa es detectar las equivalencias de estos patrones en el plano translingüístico.

Unidades mayores primero

Cuando se ha detectado que un patrón se repite con frecuencia y que tiene una equivalencia bien definida en otro idioma, lo que se debe hacer es reservar ambos para su reutilización futura. No se puede hablar de un tamaño homogéneo en estos patrones. Algunos modelos textuales (una escritura de compraventa, por ejemplo) pueden tener una estructura compleja y estar compuestos de varios párrafos. Lo que se debe hacer en estos casos, es considerar el texto en su conjunto y tratarlo como una unidad. El tratamiento fragmentado de unidades textuales de tamaño grande conlleva importantes riesgos, ya que se pierde la referencia contextual y aumentan los niveles de ambigüedad y polisemia.

Compartir recursos

Una metodología de traducción basada en el acopio de patrones textuales a gran escala y para diferentes idiomas complica considerablemente la ya laboriosa tarea de la lexicografía tradicional. Ya no se plantea el estudio del lenguaje humano por su lado más cuantificable y discreto, es decir, por el lado de las unidades léxicas o palabras, sino que se amplía a todo tipo de uso combinatorio de dichas unidades. De esta manera, la solución que ofrecían los diccionarios queda rápidamente desbordada y se deben plantear otro tipo de estrategias. Una solución es recopilar corpora con unidades textuales relacionadas en varios idiomas (corpora paralelos anotados y alineados). Pero dada la magnitud de la empresa, la única manera de abordarla de manera efectiva es facilitando la disponibilidad de tales recursos textuales y permitiendo su compartición. Esto es hoy en día posible, dadas las propiedades ubicuas de Internet y la disponibilidad de lenguajes de anotación (como XML) que facilitan el flujo de contenidos. El problema no es tecnológico, sino logístico, y tiene más que ver con la voluntad real de las empresas e instituciones y otras cuestiones relacionadas con la propiedad intelectual de los textos y traducciones que se deberían compartir.