CRITTER

(Isabelle, Dymetman, Mackovitch Coling'88)

Centre Canadien de Recherches sur l'Informatisation du Travail

Para traducir informes de mercado agrícola enre inglés y francés. Método de transferencia y diseñado para ser reversible.

1. Enfoque

Traducir textos en un entorno real restringido a un sublenguaje (Kittredge & Lehrberger, 1982). El corpus extraído de los informes semanales del Departamento de Agricultura del Canadá.

Reversibilidad: Es un buen criterio para la idoneidad de las gramáticas. Lo normal es que los analizadores sobregeneren, mientras que los generadores "bajogeneran" (**** buscar traducción), esto quiere decir que los diseñadores realizan selecciones arbitrarias en el sistema de parafraseo de la lengua. Un sistema reversible está más cercano a la idoneidad observacional de la gramática.

El modelo de traducción se compone de tres relaciones abstractas:

(i) la relación de origen de análisis/síntesis:

anasynt_s(T_S,SurfSyn_S,Sem_S)

que define tripletes bien formados, T_S es el texto de entrada, SurfSyn_S y Sem_S son respectivamente el análisis sintáctico y la estructura semántica de este texto;

(ii) la relación de destino análisis/síntesis:

anasynt_t(T_T,SufSyn_T,Sem_T)

el equivalente a anasynt_s para la lengua destino;

(iii) la relación de transferencia:

tr(Sem_S,Sem_T)

que define un conjunto de pares, donde Sem_S y Sem_T son respectivamente las estructuras semánticas de la lengua origen y destino que se consideran traducciones equivalentes.

Las relaciones anasynt_s y anasynt_t se describen formal y computacionalmente mediante la gramática de extraposición (Pereira 1981), mientras que tr se define mediante clásulas definidas. Lo importante es que cada uno de las relaciones anasynt es reversible (cf. la condición de reversibilidad de Landsbergen 1987). En términos prácticos, esto quiere decir que un mismo sistema puede usarse para las dos direcciones de traducción.

2. Representaciones

2.1. Representaciones sintácticas

Consiste en una representación arbórea que puede incluir trazas/huellas señalando una dependencia a larga distancia. El esquema de representación es una variación de la estructura de rasgos (Sag et al., 1986). Cada nodo en la estructura se representa por medio de una estructura de rasgos que incluye entre otros las atributos cat y daughters.

Un ejemplo de representación para la oración en (2a) es (2b):

(2.a) Last week, hog prices in Saskatchewan increased 5% at $69.00.

(************ estructura p. 262)

Es una estructura bastante corriente que en ocasiones puede contener rasgos idiosincráticos que dan cuenta de las peculiaridades del sublenguaje, por ejemplo, los complementos meas_p y pp bajo v', que no suelen corresponderse con la subcategorizacion habitual de "increase".

2.2. Representación semántica

Formalmente son árboles o mejor grafos acíclicos direccionados (DAGs), en los que los nodos son etiquetados con unidades semánticas que suelen corresponderse con lexemas de la lengua representada. Se introducen unidades semánticas abstractas para dar cuenta de huecos/gaps léxicos, nociones semánticas marcadas morfológicamente, etc. Los arcos se etiquetan bien con el número de argumentos (1), (2) o mediante números inversos de argumentos:

(*********** estructura sem. p. 262)

En esta estructura:

"At", "5%" y "69$" son unidades semánticas abstractas;
"lastweek" se trata como una unidad simple;
las etiquetas (1), (2) y (3) corresponden a posiciones argumentales de predicados como "increase" o de funciones como "price";
la etiqueta (inv-1) corresponde a la relación argumental "invertida", indicando que "increase" está en una posición de primer argumento con respecto a "lastweek" y que "price" está en una posición de primer argumento con respecto a "At" (cuyo segundo argumento es "Saskatchewan").

Las etiquetas "inv" son un mecanismo que permite leer simultaneamente dos niveles de representación a partir de una estructura semántica simple: un primer nivel que expresa relaciones de predicado-argumento y el segundo nivel que recuerda a la subordinación de grupos sintácticos. Así, "lastweek" depende sintácticamente de "increased" y "in Saskatchewan" de "prices". Hay dos razones para reflejar la subordinación en la estructura semántica: la primera, para mantener el caracter arbóreo de la estructura (con una única raíz y sin ciclos). Existe el motivo técnico de que a transferencia hace un recorrido trasversal de raíces a hojas. La segunda y más importante, porque la subordinación parece tener una relevancia semántica.

Las estructuras semánticas deben satisfacer un criterio de buena formación que consiste en la comprobación de concordancia de tipos semánticos entre el nodo predicado (o funcional) y sus nodos argumentos. La definición de la buena formación involucra un léxico semántico, una jerarquía de subsunción de tipos semánticos y unas reglas de buena formación semántica.

3. El léxico

El componente léxico de CRITTER se compone de un diccionario de unidades léxicas morfo-sintácticas; un componente de reglas que extiende el diccionario morfo-sintáctico; y un diccionario de unidades de nivel semántico.

3.1. El diccionario morfo-sintáctico

En este diccionario se listan las unidades léxicas en su forma de citación y se les asignan propiedades morfológicas y sintácticas. Aquí se proyectan también estas unidades léxicas a unidades del nivel semántico. Las propiedades morfológicas incluye la clase flexiva y la indicación de idiosincracias morfosintácticas. Las propiedades sintácticas consisten en un marco de subcategorización y una colección de rasgos sintácticos. El marco de subcategorización de un núcleo léxico describe el número y tipo de sintagmas por él gobernados. Estos marcos refieren a posiciones en la estructura sintáctica. Los verbos pueden estar marcados para un máximo de tres posiciones: un sujeto y un máximo de dos complementos

La proyección en unidades semánticas se realiza asociando a cada entrada léxica un esquema semántico. Este esquema se compone de una unidad semántica (representada por un functor de aridad prefijada) y una indicación de la relación entre los argumentos y los dependientes sintácticos de la unidad léxica.

En cada entrada léxica se especifica la información sintáctica, morfológica y semántica en forma de estructura de rasgos. Esta estructura tiene la forma de un término de Prolog, que se describe indirectamente, mediante un predicado que accede los rasgos relevantes. El verbo "promise" se representa mediante el término T:

(******* 3.1. p. 263)

Los predicados citation_form, cat, subcat y sem_form acceden simplemente el valor de un atributo con el mismo nombre en el término T. El atributo subcat tiene un valor del tipo lista, como en Pollard y sag 1988. Las reglas sintácticas unificarán los elementos de esta lista con los complementos del núcleo léxico, de esta manera refrendando/rubricando las restricciones de la subcategorización (p.e. la "cat" del segundo complemento de "promise" es un vp).

Tomando conjuntamente los atributos subcat y sem_form se realiza parte de la proyección sintáctico-semántica.

Los recursos de la lógica de cláusulas son invocados para establecer las relaciones complejas entre los varios tipos de estructuras de rasgos. Así el predicado control se define de tal manera que comprueba que los valores de agree y sem_form del controlador match/casan con los de la casilla de sujeto del verbo controlado:

(******** 3.b p. 263)

3.2 Reglas léxicas y morfológicas

El diccionario morfosintáctico es extendido pro tres tipos de regals que dan cuenta de la flexión, la derivación y las transformaciones léxicas.

Se utiliza un tratamiento por regla de la morfología derivativa solo para los casos producctivos, tales como los comparativos, los adverbios, etc. Se usan transformaciones léxicas para el tratamiento de las pasivas, la construcciones de ascenso, las intrasitivaciones, etc. Las transformaciones léxicas se hacen con un cambio en el marco de subcategorización de una entrada léxica:

(************* 3c,d,e,f, p.263)

3.3. El léxico semántico

El léxico semántico define un conjunto de unidades semánticas para cada lenguaje (que pueden ser más abstractas que un lexema); describe una jerarquía de subsunción de tiopos semánticos (Sowa 1983); y asocia con cada unidad semántica SU un tipo semántico inicial con la consecuencia de que SU pertenece implícitamente a los tipos más altos en la jerarquía. El léxico semántico también define un conjunto de esquemas de validación de predicados y argumentos:

MOVEMENT(MEASURE-FUNCTION,INCREMENT,MEASURE)

donde MOVEMENT, MEASURE-FUNTION, INCREMENT y MEASURE son tipos semánticos.

4. Las gramáticas

4.1. Reglas sintácticas

Las gramáticas asignan a cada unidad textual un estructura de rasgos:

(******* 4.a y 4.b)

vbar se expande de manera que puede tener dos complementos.

Tipo de reglas son independientes de contexto estilo cláusulas definidas. Los no-terminales son asignados un solo argumento cuyo contenido es la estructura de rasgos y las metas/goals de Prolog se usan para establecer restricciones mutuas entre estas estructuras.

4.2. Procesamiento sintáctico

Algunas diferencias con XGs y DCGs:

- Dada su conexión con la lógica de cláusulas, las XGs y DCGs tienen dos interpretaciones distintas: una declarativa y otra procedural que puede interpretarase como sintetizadora o analizadora.

Sin embargo, dados los compiladores usuales para estos formalismos, la interpretación procedural dificilmente puede usarse reversiblemente, para análisis y generación. El orden en que se invocan los objetivos debe estar controlado.

La solución está en usar reglas DCGs con sus propiedades declarativaspero enriquecidas con anotaciones de control que a modo de un comilador de reglas ofrecen la información necesaria para producir reglas orientadas al análisis y a la generación. En cada versión el orden de aplicación de los objetivos es distinto.

Detalles sobre el enfoque de double-compilación en Dymetman & Isabelle 1988.

4.3. Comprobación de buna formación

Se realizan comprobaciones de buena formación semántica que incluye las restricciones semánticas y la jerarquía de subsumción.

Para cada nodo predicado pn en la estructura semántica, con los argumentos an1, an2, se intenta encontrar los esquemas de validación PT(AT1,AT2,...) de manera que PT es un tipo que subsume pn, AT1 an1 y así sucesivamente.

(******** 4.c p.265)

5. Transferencia

Construye relaciones entre las estructuras semánticas.

Se hace sobre estructuras semánticas porque se considera el segnificado como principio básico de concepto de traducción: conservación del significado. Simplifica el componente de transferencia, es decir, se deja el trabajo superficial a los analizadores y generadores.

Es fundamentalmente transferencia léxica:

(************ 5.a p.265)

Estos esquemas se compilan en cláusulas Prolog. El algoritmo de transferencia hace un recorrido simultáneo y recursivo a través de las raices y hojas de las estructuras semánticas de las lenguas objeto y destino usando estas cláusulas para mantener la equivalencia de la traducción. El resultado es que traduciendo de inglés a francés, según el algritmo atraviesa la estructura semántica del inglés, la estructura semántica del francés se construye en paralelo, mediante una instanciación progresiva.

El proceso de transferencia puede que realice alguna reestructuración, motivadas léxicamente, por tanto rechazando un componente de transferencia estructural independiente, como se proponía en ARIANE-78, Boitet & Nedobejkine 1981.