LAGUNAS LEXICAS Y EXPRESIONES IDIOMATICAS EN TA
Diana Santos
IBM-INESC Scientific Group
Tratamiento de lagunas léxicas, colocaciones y expresiones idiomáticas en el sistema PORTUGA. Por tratarse de un sistema bilingüe, inglés-portugués, el tratamiento se realiza en la fase de transferencia, y no durante el análisis o la generación.
La figura 1 ilustra la estructura del sistema PORTUGA.
Sus principales características son:
La vagedad junto con el no solapamiendo de campos semánticos a través de diferentes lenguajes es lo que provoca las lagunas léxicas y la ambigüedad léxica.
Por ello, la transferencia léxica o el proceso de selección de un equivalente correcto en otra lengua para una entrada léxica es uno de los problemas mayores en TA.
El artículo se centra sobre la posibilidad de especificar traducciones complejas en la lengua destino. Se estudiará el empleo de expresiones complejas o multipalabras, el cambio de categoría gramatical y las restricciones sobre colocaciones.
Algunos ejemplos:
De 1 a N palabras
miss sentir a falta echar de menos
miss deixar escapar perder/dejar escapar
drop deixar cair tirar/dejar caer
kick dar un pontapé dar un puntapié
tonight hoje à noite hoy a la noche
graduate tirar o curso graduarse/terminar la carrera
De N a 1 palabras
have fun divertir-se divertirse
get up early madrugar madrugar
fall in love apaixonar-se enamorarse
take advantage aproveitar aprovechar
television set televisor televisión
swimming pool piscina piscina
De N a M palabras
kick the bucket bater as botas estirar la pata
lose one's temper perder a paciencia perder la paciencia
Tsuji 1986 dice: "No podemos enumerar, pensando en monolingüe, todos los conceptos denotados por la palabra "producir" (...) Sólo cuando nos piden que traduzcamos oraciones a otra lengua, nos ponemos a pensar en las palabras adecuadas en la lengua destino (...). Esto quiere decir que parte del proceso de comprensión depende de la lengua destino y no puede especificarse completamente de manera monolingüe."
Schenk 1986 habla de las expresiones idiomáticas como expresiones básicas complejas, es decir, básicas desde la semántica porque corresponden a un significado, pero complejas desde la sintaxis.
El análisis debe saber tratar las expresiones idiomáticas. El artículo de Abbeillé et al 1989 hace un recuento de los factores a tener en cuenta:
Esto indica que es deseable poder tratar las expresiones idiomáticas con las reglas habituales de la gramática. Esto choca con las teorías de semántica composicional, donde el significado se construye a la par que se aplican las reglas sintácticas (cf. Gazdar et al 1985).
Gross 1986 sugiere una estratificación de las palabras compuestas que abarca desde construcciones fijadas "de noche" hasta construcciones con elementos libres "organizar en honor a alguien".
En generación es importante la noción de colocación. Ulrich & Raab 1989 dicen que al guardar la lexicalización de un concepto en el diccionario también debería guardarse la posibilidad de combinación de lexemas en colocaciones. Nirenburg & Nirenburg 1988 hablan de que las relaciones de colocación se definen en las unidades léxicas y no en las representaciones de significado.
Se pueden establecer las siguientes conclusiones:
Se ignora la diferencia entre colocaciones o expresiones idiomáticas y de todo aquello que no es traducible literalmente. El problema se contempla como un ejemplo de transferencia léxica contrastada.
La traducción entre expresiones solo es pertinente cuando la traducción literal no es posible. Es decir, existen frases hechas que pueden traducirse literalmente:
parents and children padres e hijos
ladies and gentlemen señores y señoras
attendre un enfant esperar un hijo
take into account tomar en cuenta
in good hands en buenas manos
Ya que las expresiones destino pueden ser arbitrariamente complejas, no debería imponerse ninguna restricción en su estructura ni en la gramática que las trata.
Por otro lado tampoco parece adecuado guardar para cada par de entradas origen-destino la completa transformación implicada, como se hace en Nagao & Tsuji 1986 e Isabelle 1984. Estos enfoques derivan en diccionarios muy pesados, con grandes redundancias ya que muchas transformaciones son las mismas. Estos diccionarios son difíciles de manejar y modificar.
El método elegido consiste en usar la cadena de destino como valor de resultado en el diccionario bilingüe, así manteniéndolo libre de la estructura que se le asignará, y llamando a un analizador de lengua destino para que sobre la marcha construya la estructura requerida.
Con ello se obtiene la ventaja de que la nueva estructura se construye dinámicamente sólo cuando es necesario, sólo cuando se corresponde con la traducción escogida. Por otro lado, no se necesitan reglas léxicas separadas, porque la misma gramática se usa para multiples situaciones.
Considerese la palabra miss en su significado de to feel sorry or unhappy at the absece or loss of someone or something (Longman). La figura 4 muestra una forma resumida de la entrada en el diccionario bilingüe. La información para elegir entre la varias posibles traducciones se omite:
Lo importante a explicar aquí es que después de elegir la traducción multipalabra, se llama a la gramática de portugués para que construya el fragmento equivalente:
El ejemplo muestra una serie de manipulaciones estructurales, conversión del pronombre objeto inglés en un posesivo portugués, indicado por el marcador CHPOSS en la Figura 4. y cómo las palabras que participan en la expresión se flexionan adecuadamente (el verbo en este caso). La figura 6. muestra procesos más complejos:
1. El problema de cambio de categoría gramatical. Observese la figura 8.
Solo cuando hay más de un análisis para la expresión destino y la elegida implica un cambio de categoría hace falta que esté guardada en el diccionario bilingüe. La figura 9. muestra el cambio de categoría.
Cuando hay un cambio de categoría generalizado motivado por principios sintácticos, éste no se realiza por medio de transferencia léxica sino por transferencia estructuralm como es el caso de las cláusulas adjetivas inglesas de participio presente.
El problema de identificar una expresión multipalabra en el lenguaje origen es parecido al anterior. La expresión origen tiene que ser reconocida como un requesito bilingüe y el proceso tiene que darse sólo durante la transferencia. Si la identificación tiene éxito, toda la frase será reemplazada por la traducción portuguesa correspondiente, ya sea una palabra o una expresión compleja.
Abbeillé, Anne & Yves Schabes 1989 "Parsing Idioms in Lexicalized TAGs". Proceedings of the Fourth European Conference of the European Chapter of the ACL, Manchester.
Heid, Ulrich & Sybille Rabb. 1989. "Collocations in Multilingual Generation". Proceedings of the Fourth European Conference of the European Chapter of the ACL, Manchester.
Gross, Maurice. 1986. "Lexicon Grammar: The Representation of Compound Words". Proceedings of COLING'86, Bonn.
Nirenburg, Sergei & Irene Nirenburg 1988. "A Framework for Lexical Selection in Natural Language Generation". Proceedings of COLING'88, Budapest.
Santos, Diana. 1990. "Lexical gaps and idioms in Machine Translation". Proceedings of COLING'90, Helsinki.
Schenk, André. 1986. "Idioms in the Rosetta Machine Translation System". Proceedings of COLING'86, Bonn.
Stock, Oliveiro. 1989. "Parsing with Flexibility, Dynamic Strategies, and Idioms in Mind". Computational Linguistics, Vol. 15-1.