Second International Workshop on Spanish Language Processing and Language Technologies 113-114.
Joseba Abaitua
www.deli.deusto.es
Universidad de Deusto
Con el paso de los años en
esto de la traducción automática soy cada día más escéptico. Soy cada vez más
consciente de la complejidad y riqueza del lenguaje humano y de la distancia
astronómica que lo separa de los métodos computacionales que pretenden
procesarlo. Paradójicamente, en este acto mezcla de resignación y humildad, de
reconocimiento de las limitaciones, se encuentra la clave del optimismo. Es posible
llegar muy lejos en la automatización de muchas tareas relacionadas con la
traducción si se cambia de ruta, si en lugar de atacar la raíz del problema
-pretender emular la complejidad y riqueza del sistema del lenguaje humano-, se
evita y rodea, resolviendo primero las cuestiones que son menos complejas y más
rudimentarias. De esta otra manera, soslayando el núcleo del problema, pero
resolviendo las cuestiones que están al alcance de la tecnología, se puede dar
respuesta a un porcentaje muy elevado de situaciones reales.
Las posibilidades creativas del lenguaje humano son
abrumadoras (desde el punto de vista formal) y suponen un reto insoluble para
la tecnología lingüística, sin embargo, la mayoría de las veces ( 90% ), el
lenguaje se usa de manera rutinaria y repetitiva. Y este uso "no
creativo" del lenguaje es el que la tecnología puede abordar de manera
eficaz.
Cuestiones que se deben tratar:
·
Ciclo
de vida de la documentación
·
Localización
de aplicaciones (más que mera traducción)
·
Acopio
de ejemplos (compilación de corpora)
·
Detección
de repeticiones (segmentación)
·
Unidades
mayores primero
·
Compartir
recursos (TMX por Internet)
Muchos textos son únicos e irrepetibles. Se escriben
una vez y tras ver la luz en algún medio público, su singular esencia queda
almacenada en la oscuridad y anonimato de los archivos. Sólo un porcentaje
minúsculo de estos textos sobrevive al olvido y perdura en la memoria colectiva
como patrimonio literario. (Aunque con Google, las cosas están cambiando y ya
nada se olvida).
Otros textos, sin embargo, se repiten
constantemente, con pequeños cambios y actualizaciones. Son textos en los que
no se percibe ningún valor literario, pero que perduran en el uso cotidiano
(textos legales, comerciales, manuales de referencia, instrucciones de uso,
partes de todo tipo). Curiosamente, este tipo de producción documental supone
el porcentaje mayoritario de demanda de traducciones. Es importante disponer de
métodos eficaces que permitan controlar no solo la traducción, sino todo el
ciclo de vida de estos documentos (concepción, redacción, revisión, traducción,
difusión, catalogación, almacenamiento, reutilización). La tecnología puede
aportar importantes beneficios a las instituciones y empresas que viven esta situación.
La industria de software ha dado con la solución a
un viejo problema de la traductología, "los preceptos de la buena
traducción". Lo que la industria ha descubierto es que un producto (una
aplicación) que se lleva a un nuevo mercado, diferente del inicial para el que
fue diseñado, no sólo tiene que ser "traducido" a la lengua de los
nuevos clientes, sino que debe tener en cuenta todas las particularidades
culturales, sociales, económicas, etc. de ese nuevo mercado. Ello implica la
consideración de muchas más cuestiones que las meramente lingüísticas y puede
suponer la revisión completa del propio diseño del producto. Un buen diseño es
aquel que separa los aspectos ligados al uso particular en un mercado de las
propiedades generales de la aplicación, de forma que permita una
internacionalización efectiva del producto y facilite su posterior adaptación a
otros mercados locales.
Acopio de ejemplos
Desde el punto de vista teórico, es más interesante
analizar las posibilidades creativas del lenguaje humano, pero desde el punto
de vista ingenieril, lo práctico es recopilar ejemplos de usos reales y
comprobar su frecuencia y modo de utilización. Este acopio de datos es lo que
se conoce como compilación de corpora, y es una actividad que se ha generalizado
sobremanera en los últimos años.
El uso no creativo del lenguaje humano quiere decir
que muchos patrones lingüísticos se repiten y reutilizan constantemente. Si se
analizan estos patrones desde el punto de vista lingüístico se descubren muchas
veces propiedades difíciles de explicar, que se resisten a las reglas
simbólicas de la gramática y que a duras penas admiten generalizaciones. Son
los conocidos usos colocacionales e idiomáticos; a los que hay que añadir las
expresiones convencionales y formulaicas. Los métodos que permiten su estudio
son de tipo estadístico, y en relación con la traducción, lo que interesa es
detectar las equivalencias de estos patrones en el plano translingüístico.
Cuando se ha detectado que un patrón se repite con
frecuencia y que tiene una equivalencia bien definida en otro idioma, lo que se
debe hacer es reservar ambos para su reutilización futura. No se puede hablar
de un tamaño homogéneo en estos patrones. Algunos modelos textuales (una
escritura de compraventa, por ejemplo) pueden tener una estructura compleja y
estar compuestos de varios párrafos. Lo que se debe hacer en estos casos, es
considerar el texto en su conjunto y tratarlo como una unidad. El tratamiento fragmentado
de unidades textuales de tamaño grande conlleva importantes riesgos, ya que se
pierde la referencia contextual y aumentan los niveles de ambigüedad y
polisemia.
Una metodología de traducción basada en el acopio de
patrones textuales a gran escala y para diferentes idiomas complica
considerablemente la ya laboriosa tarea de la lexicografía tradicional. Ya no
se plantea el estudio del lenguaje humano por su lado más cuantificable y
discreto, es decir, por el lado de las unidades léxicas o palabras, sino que se
amplía a todo tipo de uso combinatorio de dichas unidades. De esta manera, la
solución que ofrecían los diccionarios queda rápidamente desbordada y se deben
plantear otro tipo de estrategias. Una solución es recopilar corpora con
unidades textuales relacionadas en varios idiomas (corpora paralelos anotados y
alineados). Pero dada la magnitud de la empresa, la única manera de abordarla
de manera efectiva es facilitando la disponibilidad de tales recursos textuales
y permitiendo su compartición. Esto es hoy en día posible, dadas las
propiedades ubicuas de Internet y la disponibilidad de lenguajes de anotación
(como XML) que facilitan el flujo de contenidos. El problema no es tecnológico,
sino logístico, y tiene más que ver con la voluntad real de las empresas e
instituciones y otras cuestiones relacionadas con la propiedad intelectual de
los textos y traducciones que se deberían compartir.