KMBT: TRADUCCIóN AUTOMáTICA BASADA EN EL CONOCIMIENTO

Sergei NIRENBURG, 1989

En Machine Translation, 4:5-24

Este artículo ofrece una panorámica del sistema KBMT-89 de Centro de Traducción Automática de la Universidad de Carnegie Mellon.

Según Nirenburg 1989:6 la mayor diferencia entre un sistema interlingual y uno de transferencia no está en la presencia o ausencia de un léxico bilingüe, sino en el enfocque que se da al análisis profundo del significado. Un sistema de transferencia puede contener varios niveles de análisis del significado; estos análisis son restringidos, de manera que la lengua en que se expresa el significado de la lengua origen no sea una lengua artificial de representación del conocimiento sino la propia lengua destino, mediante un léxico bilingüe que permitirá la desambiguación si ha lugar. En los sistemas interlinguales el significado se representa mediante lenguajes artificiales, precisamente porque un lenguaje así permite con más facilidad la formulación de las regla de desambiguación necesarias para producir el significado adecuado en el texto destino.

Los diseñadores de sistemas interlinguales deben formular nuevas técnicas de comprensión del lenguaje basadas en el conocimiento. La complejidad de esta tarea obliga a restringir el abanico de fenómenos a procesar, generalmente reduciendo el sublenguaje de traducción a un subconjunto pequeño de LN.

Los primeros cuarenta años de experiencia en TA han demostado que el progerso a largo plazo depende de los avances de las técnicas de modelización de la comprensión del LN usando el ordenador. Se ha arguído que sistemas con una comprensión pequeña pueden resultar más útiles y prácticos a corto plazo, pero los sistemas que extienden y refuerzan nuestra conocimiento del problema del la tradución deben afanarse por la comprensión. Esto es cierto incluso si al principio la falta de conocimiento sobre determinados tipos de desambiguación y representación del significado requieren la introducción de medidas de involucración humana en la forma de edición interactiva.

Especificaciones y arquitectura

El proyecto KBMT-89 está dedicado a la creación de un prototipo de sistema funcional de traducción automática con las siguientes especificaciones:

El conocimiento adquirido por el sistema incluye:

Los formalismos subyacentes que han sido desarrollados para ser usados por el sistema son:

Los componentes procedurales del sistema incluyen:

Las facilidades de soporte y entorno de KBMT-89 incluyen:

La arquitectura de KBMT

KBMT-89 toma como input una oración simple de inglés o japonés y produce representaciones de su significado en una notación especialmente diseñada llamada interlingua. La representación resultante del análisis de una unidad de entrada se llama texto de interlingua o ILT. A partir de un ILT, el generador produce oracions en japonés o inglés que son traducciones de la oración original. La arquitectura global está ilustrada por la Figura 4.

1. El analizador

El analizador consta de dos componentes íntimamente interconectados: un analizador sintáctico y un intérprete semántico llamado el intérprete de reglas de proyección. El analizador sintáctico toma la entrada del lenguaje origen y produce una estructura sintáctica. El analizador utiliza una gramática análoga a la LFG y el resultado es una estructura funcional típica de esta teoría.

Ejemplo de regla inicial de análisis:

(<START> <==> (<S> <END-PUNC>)

((X0 = X1)) )

Ejemplo de estructura funcional:

Tan pronto como se crea la estructura-f de la lengua origen, el intérprete semántico empieza a aplicar reglas de proyección para substituir unidades léxicas y construcciones sintácticas de la lengua origen por sus equivalentes en la interlingua. Las unidades léxicas se proyectan sobre actualizaciones del dominio conceptual (p.e. la palabra inglesa data se proyectará sobre el concepto "information" en la interlingua), mientras que las estructuras sintácticas se proyectan sobre relaciones semánticas (p.e. la noción sujeto sobre la relación "agente"). El proceso de proyección se acompaña con la eliminaciones de análisis ambiguos mediante la aplicación de constricciones sobre la coaparición de varias actualizaciones de conceptos. Un ejemplo de regla de proyección para la unidad joy stick:

Una regla de proyección estructural para sustantivos ingleses:

Y el resultado de la aplicación de la regla de proyección a la estructura-f:

La arquitectua general de KBMT es la mostrada en la Figura 5.

2. El vehículo de conocimiento

El significado del texto de entrada se expresa en un lenguaje de representación del conocimiento específico, la interlingua. La interlingua tiene la forma de frame o marco y puede considerarse un sucedáneo de red semántica. Al igual que otros lenguajes formales, la interlingua tiene su propio léxico y su propia sintaxis. Mientras que la sintaxis de la interlingua tiene una motivación independiente, el léxico está basado en un modelo del dominio (o mundo) de donde se extraen los textos a traducir. El dominio en este caso son los manuales de instalación y mantenimiento de ordenadores personales. Los sustantivos de la interlingua son objetos conceptuales de la ontología; los verbos de la interlingua corresponden a sucesos o acontecimientos (events) de la ontología; los adjetivos y adverbios responden a diversas propiedades definidas en la ontología. Las representaciones de los textos originales en la ILT contienen actualizaciones numeradas de la ontología conceptual. La ontología en sí misma forma una una red densamente interconectada con los diversos tipos de conceptos. La Figura 6 ilustra parte de la ontología. Cada uno de los nudos conceptuales tiene de hecho una representación simbólica mucho más detallada asociada.

Figura 6. Fragmento de la ontología.

La sintaxis de la interlingua añade más restricciones a las propiedades sintácticas del lenguaje de representación FRAMEKIT. Este lenguaje es genérico, no especializado, y está orientado al marco. La interlingua introduce restricciones semánticas y tipos de marcos específicos. Así cada ILT consta de un marco textual y un conjunto de marcos de cláusulas-ILT. Cada marco de cláusulas tiene un marco de proposición asociado, que a su vez tiene un conjunto de marcos de papeles semánticos asignado. Los núcleos de las proposiciones y roles semánticos son actualizaciones de conceptos ontológicos. Algunas de las unidades léxicas de la lengua de origen no corresponden a conceptos ontológicos. Estas palabras pueden llevar significados especiales (p.e. be marca que el adjetivo que sigue es predicativo y que por lo tanto es el núcleo de una proposición). Otros significados son posibles, como de cohesión de discurso (p.e. therefore). Estos son representados en la interlingua por medio de un formalismo especial no relacionado con la ontología. Una ILT se puede esquematizar como en la Figura 7.

La Figura 8 ilistra el proceso desde el punto de vista de la conexión de datos entre los tres lexicones (de análisis, genración y conceputal) y la ILT.

Nótese que algunas de las unidades léxicas de la lengua origen están conectadas con su significado en la interlingua directamente, pasando de largo el léxico conceptual. La figura también ilustra la falta de simetría en el tratamiento de la semántica léxica en análisis y generación; siendo el principal problema en análisis la polisemia y en generación la sinonimia.

3. El generador

El componente de generación tomo una ILT como entrada y produce un texto en la lengua destino como resultado. Tiene dos módulos principales, uno semántico y otro sintáctico. El primero se llama el constructor de estructuras-f, realiza la selección léxica y el tipo de construcciones sintácticas de la lengua destino. Es ayudado por el léxico de generación y las reglas de generación de proyección estructural. El resulatado es una estructura-f de la oración destino. El sistema usa el módulo GENKIT (Tomita & Nyberg 1988). El generador KBMT-89 es un subconjunto del genrador DIOGENES (Nirenbur et al 1988a).

Figura 8.

La arquitectura se parece a la del analizador, Figura 9; y el proceso de selección léxica Figura 10.

Ejemplo de regal estructural orientada a la generación:

Ejemplo de regla de la gramática de generación:

4 El aumentador

Entre los formatos de ILT y la salida de las reglas de proyección del intérprete hay un desfase. El motivo son las incompatibilidades entre: (a) la salida del parser y la entrada del generador, es decir, la ILT; (b) las constricciones en la formulación y aplicación de la reglas de proyección en la interpretación semántica; y (c) los requisitos para representar en la interlingua algunas facetas nocomposicionales del significado global de la oración, tales como actos de habla y la cohesión del discurso.

El aumentador sirve dos finalidades. Por un lado, reformatea la salida del analizador en el formalismo canónico de la ILT. Por otro lado, ayuda a eliminar ambigüedades residuales mediante la aplicación de restricciones semánticas y pragmáticas y si todo ello falla (por que falta alguna unidad de conocimiento), entra en diálogo con el usuario. El aumentador está ilustrado en la Figura 11.

5 Las herramientas

Un sistema sistema de esta complejidad requiere herramientas que posibiliten (a) la adquisición de la vasta cantidad de conocimiento lingüístico y del dominio requerida; y (b) la comprobación, evaluación y debugging o rastreo de los procesos de los distintos componentes.

La herramienta para la adquisición del conocimiento es ONTOS, que es un sistema para la adquisición interactiva y de mantenimiento de los modelos del dominio; también se usa en la adquisición de los léxicos de análisis y generación. En la Figura 12 se puede ver un segmento de la ontología creada con ONTOS.

Figura 12. Ventana de ONTOS

REPRESENTACIóN DEL CONOCIMIENTO

El texto en la interlingua

En un sistema de TA basado en el conocimiento la utilización de conocimiento del mundo es primordial. Sin embargo, no siempre es considerado así.

  1. La relación entre el texto de la interlingua ILT (resultado del análisis) y el léxico conceptual (el modelo del dominio) no suele ser bien entendido, tanto por lo que se refiere a la naturaleza de sus elementos como al lenguaje de representación empleado.
  2. Suele prevalecer una cierta incertidumbre respecto a la situación de habla o el conocimiento pragmático contenido en el texto original. Sin embargo, éste es un componente indispensable del significado total y debe ser considerado y transmitido al texto destino.

1. Variedades de conocimiento del mundo

El léxico conceptual contiene un modelo ontológico, que es donde se definen las categorías básicas (objetos, tipos de suceso, relaciones, episodios y otros) en forma de bloques prefabricados para la descripción de dominios particulares. El modelo del mundo es relativamente estático y está organizado en forma de redes interconectadas de conceptos ontológicos.

Un ILT es una represtanción de los acontecimientos que ocurren en el mundo tal como lo expresa el texto de entrada. ILTs son redes de muestras (tokens) de acontecimientos y estados, rellenados con sus participantes y conectados mediante lazos causales, espaciales, temporales y otros lazos enunciativos

/proposicionales. Estas muestras de acontecimientos, o episodios, están indexados según su correspondencia ontológica. En el proceso se produce una instanciación de las muestras apropiadas a partir del léxico conceptual. Se puede decir, que la representación del significado de un texto equivale a la creación de un episodio. En un episodio pueden figurar tanto objetos y acontecimientos de la ontología como referencias a elementos externos no pertenecientes a la ontología (entidades como IBM, Cambio16, etc.). Esto se muestra en la Figura 1.

*********** fig 1

2 Integración del discurso y el conocimiento proposicional

Proyectos dispersos:

Sin embarago la medida en que se ha procedido a la extracción y manipulación de significado en sistemas de NL ha sido limitada: solo al análisis sintáctico, a una forma lógica o a pequeños modelos de discurso o pragmáticos. Marcus 1987 critica la pobreza de los mecanismos de selección léxica en los sitemas de NL. Algunos sistemas como el de McKeown 1985 atienden a la estructura de discurso del texto origen, algunos añaden incluso un gestor de discurso como el de Pustejovsky 1987. Fuera de los entornos de interfaces y sistemas de diálogo es necesario considerar otros tipos de significado y el progreso en este área depende de la integración de conocimiento proposicional y no proposicional sobre tipos de conceptos, muestras de conceptos y unidades textuales.

3 Tipos representativos de conocimiento del discurso

Es necesario extraer el significado de discurso y pragmático de las actualizaciones conceptuales.

El significado pragmático suele entenderse como referido a las actitudes del hablante/oyente. El significado del discurso refleja las reglas de combinación (dependientes del lenguaje) de las distintas partes en un texto coherente.

Los problemas cuyas soluciones dependen de conocimiento no propisicional son bastante omnipresentes en el análisis del significado y tienen que ver con la ambigüedad referencial, la estructura temática del texto, la comprensión de actos de habla indirectos y la interpretación de marcadores de cohesión de discurso, como además, en cualquier caso, con todo, etc.

4 Texto de la interlingua - combinación de muestras de conceptos en redes

Vamos a presentar la sintaxis de la interlingua. Un texto de la interlingua no es linear como un texto en LN, sino que se configura como una compleja red de unidades oracionales enlazadas por marcadores de cohesión de la interlingua. Un texto de la interlingua tiene la forma de un marco/frame que sirve de índice para las cláusulas de la interlingua que componen el texto. En cada una de estas cláusulas es donde se ubican las instancias o muestras de los acontecimientos de acuerdo con el contexto modal, discursivo y la situación de habla. Las muestras de acontecimientos y de objetos se producen a partir de las muestras de los tipos de conceptos relevantes en el modelo del dominio y son aumenados/incrementados con valores de propiedad reconocidos durante el proceso de análisis del texto de entrada. Se sigue que las casillas/slots cuyo valor expresa un componente del significado contextual y enunciativo (p.e. la negación) o cualquier tipo de significado no enunciativo (incluyendo el significado del discurso) solo aparecen en los marcos de ILT para las muestras de acontecimientos y objetos y no en el modelo del dominio.

Toda muestra de un concepto de la interlingua mantiene un ralción de es-muestra-de con su correspondiente tipo. El marco de un tipo y el de su correspondiente muestra no son idénticos ni en su estructura ni en su semántica, aunque compartan algunos nombres de sus casillas. Existen correspondencias entre unidades del léxico conceptual (del modelo del dominio) y del ILT. Los valores de propiedad en las muestras de los objetos son generalmente elementos o subconjuntos de tipos de datos listados como restricciones/constraints ontlógicas en sus correspondientes casillas del léxico conceptual. Por ejemplo, la casilla de la propiedad "color" en el marco del léxico conceptual de "flor" puede estar ocupado por la lista "blaco" "amarillo" "azul" ... Pero un marco ILT de "rosa11", que es una muestra de una subclase de la clase "flor", tendrá "rojo" como contenido de su casilla de "color".

El conocimiento no enunciativo del texto de entrada está ampliamente representado en el texto de la interlingua. Las oraciones de la interlingua contienen esta información. Las relaciones no enunciativas como el discurso o el foco son representadas mediante estructuras de conocimiento usuales en la representación del contenido enunciativo.

El formalismo para representar ILT se asemeja a una red semántica. Los tipos de nodos en la red incluye

Los enlaces/links en la red semántica son de los tipos siguientes:

Estas redes deben formularse en un lenguaje simbólico tratable computacionalmente, pero para que puedan ser inspeccionados por el investigador se ha facilitado una representación gráfica y un editor de la misma.

5 El texto de la interlingua y las microteorías

No existe una teoría que englobe todos los aspectos pragmáticos y semánticos inherentes en el LN y por ello un método práctico para construir un modelo computacional suficientemente robusto de comprensión del LN es desarrollar un conjunto de microteorías. Cada una trataría un fenómeno lingüístico particular y para determinados lenguajes. Esto estaría complementado con una arquitectura capaz de integrar todos los módulos. Se puede emprender el estudio de microteorías sobre el tiempo, la modalidad, la causalidad o los actos de habla, etc.

El ILT sirve para encapsular todas estas microteorías. El estado de desarrollo del sistema, sin embargo, no resuelve todos los aspectos en profundiad (está limitado a oraciones simples, presenta un tratamiento parcial de la focalidad y de la modalidad, solo se usan unos pocos cuantificadores, etc.), pero es suficiente para ilustrar la metodología propuesta.

6 Significado y representación

Se ofrecen a continuación decisiones tomadas repecto a los componentes del significado del LN.

6.1 La cláusula: donde se encuentran lo enunciativo y no enunciativo

********

La casilla de foco refiere a la estructura temática de un componente del texto. Su subcasilla de "ambito" hace palta para determinar el fondo sobre el que la información previa y nueva es definida. Puede que se dé más de un núcleo focal en una oración (generalmente compuesta):

(1) Cuando se trata de trabajo, nadie le supera, pero cuando toca diversión, Juan debería aprender de Celso.

Un análisis posible de la estructura temática sería postulando dos núcleos focales correspondientes a las dos cláusulas coordinadas y con las respectivas subordinadas sirviendo como valores para lo "previo" y las principales para lo "nuevo". Pero otro análisis sería postular cuatro núcleos focales, uno para cada cláusula, con la distribución siguiente:

Ambito Previo Nuevo

cláusula1 [indeterminado] trabajo

cláusula2 le supera nadie

cláusula3 [indeterminado] diversión

cláusula4 aprender de Celso

UN MARCO PARA LA SELECCIóN LéXICA EN LA GENERACIóN DEL LENGUAJE NATURAL

Sergi Nirenburg, Carnegie-Mellon University

Irene Nirenburg, Carnegie Group Inc

COLING'88, Budapest 471-475

1 Posición en el mapa de la investigación sobre generación

La generación del lenguaje natural se ha dividido tradicionalmente en dos fases: la fase de la planificación del enunciado (lo que se dice) y la fase de la realización léxica y sintáctica (la forma de decirlo). La última fase comprende un extenso conjunto de preferencias de realizaciones para los diversos significados del texto de entrada, usando los medios de expresión morfológicos, sintácticos y léxicos en la lengua destino LO. La investigación de la que se da cuenta aquí contempla el proceso de selección léxica en la segunda fase de generación. Muchos de los sistemas de generación actuales han sido concebidos como componentes de interficies en lenguaje natural a bases de tados. En tales sistemas el inventario léxico puede restringise sin que peligre lo que propicia la calidad de la interacción (cf. p.e. McKeown, 1985). Estos sistemas se centran necesariamente en la elección de la sintaxis apropiada de la lengua destino LD. La selección léxica es más importante cuando es difícil restringir el tipo de texto de salida, esto es, cuando el léxico es más extenso. La traducción automática y el resumen automático de textos son algunas de las aplicaciones que por su naturaleza tratan una variada gama de textos de salida y tienen que emplear textos de considerable tamaño. Adviértase que la primera de estas dos aplicaciones (la TA) no requiere una planificación elaborada de los enunciados y concentra la atención en la realizacón léxica y sintáctica.

En la comunidad científica dedicada a la generación, la selección léxica no ha atraído suficiente atención, aunque fuera tratada en uno de los primeros generadores conocidos (Goldman, 1975) y sea ampliamente reconocida como un problema importante (cf. Danlos, 1984; Jacobs, 1985; Bienkowski, 1986; y la encuesta de Cumming, 1986). Una de las motivaciones para investigar la selección léxica, es como dice Marcus (1987, p.211), que "la mayor parte de los sistemas de generación no utilizan palabras". La calidad de la generación mejorará sensiblemente una vez que el componente de la selección léxica esté bien definido.

2 La tarea

Este artículo presenta la investigación realizada en el proyecto DIOGENES (Nirenburg, 1987), cuyo principal objetivo es lograr un generador de calidad para el sistema de traducción automática interlingual basado en el conocimiento, KBMT. El texto de entrada de este generador está compuesto de: (a) un conjunto de instancias de conceptos que representan el contenido proposicional del texto de entrada; y (b) un conjunto de valores paramétricos de textos que representan el contenido pragmático. Estos conceptos están representados en un formalismo orientado al marco/frame y están interconectados de acuerdo con las reglas de la gramática. En este artículo se da cuenta de una parte de la generación, en concreto, de la selección de las entradas léxicas de clase abierta (open-class) para materializar el significado de las muestras de objetos, acontecimientos y propiedades del texto de entrada. Por eso, el texto de salida del módulo de generación es una unidad léxica o un pronombre en la lengua destino.

Este enfoque es similar al del proyecto SEMSYN (p.e. Rösner, 1986). La selección léxica no es sin embargo un tema primordial ni ha sido discutido en las descripciones sobre SEMSYN (cf. Laubsch et al. 1984; tampoco el artículo sobre problemas de generación de Hanakata et al. 1986 lo menciona).

3 ¿Por qué es una tarea difícil?

La selección léxica no es una tarea sencilla. Supongamos que queremos expresar en inglés el significado "una persona de sexo masculino y que tiene entre 13 y 15 años". ¿Qué conocimiento usan los hablantes cuando eligen entre una de las siguientes (1)?

(1) boy, kid, teenager, youth, child, young man, schoolboy, adolescent, man

Sin un contexto, la selección basada en la proximidad del significado y su generalización sería boy. Para que un programa haga selecciones como ésta, debe tener la capacidad de asignar preferencias en los encajes/matches entre los significados de los candidatos a realizarse léxicamente por un lado y la unidad de significado de la lengua de origen por otro (véase la discusión sobre la métrica de encaje/matching abajo).

3.1 Colocaciones

Las preferencias léxicas se realizan típicamente en contexto. Las relaciones contextuales entre las unidades léxicas reflejan restricciones inducidas por el significado en su coaparición (restricciones selectivas: admire tomo un sujeto humano). Sin embargo, a veces es difícil formular restricciones de coaparición dependiendo sólo de las restricciones selectivas. Así, por ejemplo la construcción causativa con la palabra inglesa influence requiere exert, su equivalente ruso vlijanie requiere okazyvat' que no es un correlato ruso de exert a excepción del caso citado y otras construcciones sintagmáticas parecidas. ¿Por qué se dice en inglés shed con tears o leaves pero no se dice shed water out of a bucket o they drop tears every time. Estas propiedades de abasto/stock léxico se llaman colocaciones. Es fácil proponer más ejemplos. Considérese el operador conceptual a large quantity of, un valor relativo para medir cantidades (de material, fuerzas, cualidades, propiedades, etc.) En inglés este operador se materializa de acuredo con propiedades colocacionales de las unidades léxicas que se usan como operando. Elementos del conjunto {big, enormous, great, high, large, strong, wide} de materializaciones potenciales de a large quantity of pueden coaparecer con cualquiera de los elementos del conjunto de cantidades {amount, difficulty, expanse, selection, voltage}. Sin embargo, se dice high voltage pero large amount. Sería incorrecto decir high selection o large difficulty. Adviértase que para el análisis, el problema de asignar un marcador semántico similar a cada uno de las expresiones puede ser tratado mediante un mecanismo de procesamiento metafórico (p.e. Carbonell, 1987), con una regla heurística general desarrollada para el procesamiento metafórico de unidades que pertenecen a una misma clase, véase Lakoff & Johnson, 1980, donde se cita una extensa lista de potenciales clases de metáforas; en generación sin embargo la tarea es la opuesta ya que se trata de producir un texto metafórico fluido. Ya que esto no depende de las regularidades de significado sino de las idiosincracias de las materializaciones de los significado, las reglas generales serán más difíciles de formular.

Una clase adicional de colocaciones son las colocaciones paradigmáticas. La mejor forma de ejemplificarlas es con las colocaciones de elementos complementarios derecha e izquierda / left and right, etc. El conocimiento de estas colocaciones simplifica el proceso de selección léxica de construcciones coordinadas, como señores y señoras / ladies and gentlemen.

Las relaciones de colocaciones están definidas sobre las entradas léxicas, no sobre unidades de significado. El estudio de las colocaciones se remonta a Firth 1951 y es un tema central a la escuela de Mel'cuk 1974; 1981. Otros autores que han reconocido la importancia de las colocaciones: Cumming 1986, Santos 1990.

3.2 Elipsis y anáfora

Algunos contextos mitigan el problema de la selección léxica de clases abiertas. Considérese el segmento de etrada siguiente:

(2) Cláusula1: Buy(John3 book7), time1, focus:book7

Cláusula2: Bring(John3 book7 office1),belong-to(office1 John3),

time2: time2 > time1, focus:office1

Cláusula3: Read(John3 book7), aspect: inchoative,

time:after(time2)

Una forma adecuada de materializar esta glosa es:

(3) John bought a book. He brought this book to his office and

started to read it.

Hay siete casos de los tres conceptos de tipo objeto en las casillas de caso en las proposiciones de entrada arriba. Cada uno de los conceptos se materializa léxicamente solo una vez. En dos ocasiones por medio de pronominalizaciones y una vez cada uno mediante una descripción definida y una construcción elíptica. Con esto se quiere demostrar que la no materialización léxica es otra forma de selección léxica en generación.

En las secciones siguientes se explica la arquitectura del sistema, las estructuras de conocimiento usadas para seleccionar los elementos léxicos de clase abierta durante la generación.

4 El sistema y el conocimiento

DIOGENES es un sistema distribuido de generación con una estructura de control de tipo pizarra. El procesamiento se produce en torno a las fuentes de conocimiento que son detonadas

por el estado de las diferentes pizarras. Estas contienen la entrada para la generación así como todos los resultados intermedios y resultados finales de la operación de DIOGENES, uniformemente representados en una representación del lenguaje orientada al marco/frame. El conocimiento de fondo en DIOGENES incluye los siguientes componentes concernientes a la selección léxica:

Esta descripción es incompleta (en Nirenburg 1987 se hace un extenso repaso de todas las facetas de DIOGENES). Las herramientas que se han utilizado para implementar DIOGENES son el lenguaje de representación "Framekit" (Carbonell & Joseph, 1985) y el CommonLisp CMU sobre un IBM PC RT.

Algunos ejemplos de entradas léxicas se ilustran en la figura 1. Esta figura muestra una pantalla del sistema de adquisición y mantenimiento del conocimiento, ONTOS (Nirenburg et al. 1988), que se usan para adquirir y mantener el léxico.

La figura muestra un visión parcial de la red conceptual y tres marcos de léxico conceptual que se corresponden con los conceptos de reserach-workstation (estación de trabajo para investigación), memory (memoria) y disk (disco).

A continuación se muestra un ejemplo de entrada que permitirá que DIOGENES produzca una oración:

The basic IBM personal computer XT consists of a system unit and a keyboard.

4.1 El léxico de generación

La mayor fuente de conocimiento estático para generar los elementos de la clase abierta es un léxico de generación especializado (GL). La estructura de una entrada en el léxico de generación en DIOGENES se muestra en la figura 2. (la notación BNF es incompleta):

El importance value (valor de importancia) sirve para destacar las diferentes relaciones de identidad del núcleo de entrada. Por ello, por ejemplo, si se genera youth en lugar de boy parece una desviación menor que generando girl. Esta es la razón por la que la importancia de la casilla sex en el ejemplo de abajo es más importante que la casilla de age (edad).

La muestra de entradas GL abajo no contienen un ejemplo completo de relaciones de colocación.

5 El algoritmo

El generador DIOGENES recurre a las fuentes de conocimiento para la selección de núcleo provocando simultáneamente toda la instanciacón del acontecimiento (event) en cuestión y la del rol en la representación de entrada. Los resultados de esta operación se fijan en una pizarra pública, de manera que las fuentes de conocimiento puedan dibujar sobre este conocimiento durante sus propios procesos de decisión. Las fuentes de conocimiento responsables de seleccionar los modificadores son provocados una vez el núcleo de los sintagmas ya han sido seleccionados.

La figura 3 ilustra el algoritmo de selección léxica simple (núcleo o modificador). Si un marco ha sido mencionado en la entrada, la cuestión que aflora es saber si no debe realizarse léxicamente, esto es, por medios deícticos (como en la segunda aparición de John en (2)). Cuando esto ocurre, la realización debe encontrarse y fijarse en su correspondiente pizarra. Si este proceso falla en cualquier punto, se vuelve al caso "regular" de realización léxica. Esto consisten en, primero, analizar el léxico de generación en busca del conjunto de candidatos a materializarse para el marco de entrada. (1) arriba era un ejemplo de un conjunto con estas características.

Cuando se localiza un conjunto así este debe ser filtrado, extrayendo los candidatos que no son compatibles con la materialización decidida para otros marcos de entrada en la misma oración. Este procesamiento se fundamenta en la comparación de la información de colocaciones en las entradas léxicas para los elementos de los conjuntos de materialización de varios candidatos. Por ejemplo, si el marco vecino se ha materializado como demonstrator, entonces la información de colocación filtrará todos los miembros de (1) excepto youth, teenager, man. Si el conjunto residual tiene cardinalidad uno, se fija el resultado. De otra manera -como por ejemplo cuando no se ha utilizado información de colocaciones- se selecciona la materialización según las entradas en el conjunto de candidatos a materializarse (esto es, sin beneficio del contexto). Esta rutina usa una métrica de casación inexacta bien definida que calcula las distancias entre los significados del marco de entrada y los significados de las unidades léxicas en los conjuntos de candidatos a materializarse. El significado más cercano se elige y se fija.

6 Trabajo futuro

Es obvio que la adquisición de léxico de generación es una tarea muy trabajosa. La adquisición de la información de colocaciones no puede hacerse de manera automática, pero con las herramientas de desarrollo apropiadas se puede potenciar la labor de los lexicógrafos.