La lingüística computacional


Herramientas lingüísticas

Aplicaciones


Reflexiones

(s) Material basado en Ingeniería de la lengua y normalización lingüística con fecha de 27/11/96.

Cuestiones de índole metodológico:

Pobres resultados

La escasez y baja calidad general del software lingüístico en el mercado demuestra que algo se ha hecho mal o que existe algún error de planteamiento. ¿Por qué si no son tan insignificantes los logros comparados con el número de proyectos o la magnitud de las inversiones?

El Informe Danzin

Reflexiones sobre esta cuestión se han recogido en varias publicaciones recientes, entre las que destacan los informes realizados por la propia Comisión Europea, en concreto el Informe Danzin.

Gramática de enunciados

Durante décadas, la aportación de la lingüística teórica al desarrollo del PLN se ha centrado en lo que ha sido el paradigma de la lingüística desde la aparición de Syntactic Structures de Chomsky en 1957, esto es, en la gramática de enunciados ("sentence grammar").

La siguiente cita de Noam Chomsky (1964) define perfectamente el que ha sido el hecho principal que ha atendido la lingüística generativa, la competencia o capacidad creativa del hablante:

"Un hablante que se ha expuesto a un conjunto limitado de expresiones en su lengua, puede, a partir de esta experiencia finita, producir un número infinito de nuevos enunciados que los otros miembros de la comunicad de hablantes aceptará inmediatamente".

Chomsky, lógicamente, se refiere a la competencia para hablar y, en este sentido, entronca con toda la tradición desde Boas hasta nuestros días en dar prioridad al estudio del lenguaje hablado sobre el escrito.

Sin embargo, diversos autores, entre los que destaca Birdsong 1989, muestran una preocupación respecto al enfoque metodológico en la forma de inspeccionar esta facultad humana de la competencia.

Entre otras cuestiones, los ejemplos que se utilizan como base del análisis lingüístico están basados en la introspección, muchas veces muy alejados de la lengua hablada.

Wallace Chafe (1992:17-18) comenta :

"It is a curious fact that we know relatively little about how spoken language works. It is curious in light of the powerful linguistic tradition [...] I refer to the practice by which a linguist presents a consultant with sentences that flagrantly violate constraints on speaking. I am thinking of sentences like:
The managing of an office by Peter is liked by John."

La propiedad creativa del lenguaje humano, que ha ocupado la atención de la lingüística generativa durante las últimas décadas, ha inspirado también gran parte de la investigación en el PLN. Stuart Shieber (en Whitelock y otros 1987) e Ivan Sag (en Klein y Veltman 1991), al recapacitar sobre la metodología de la LC, muestran que sus ideas descansan también sobre la base de gramáticas de enunciados. Como señala Ivan Sag (1991:81), los esfuerzos en expresar esta capacidad productiva en modelos formales que permitan su procesamiento computacional se ha saldado con buenos resultados:

"Be as it may, it is interesting to take stock of the progress we have made in NLP, and the role Linguistics has played in that progress.

To me, it looks this way: Fifteen years ago, proponents of AI saw work in Linguistics as peripheral (at best) to NLP, in part because of linguistics' lack of concern for computational issues. AI researchers set out to solve the problems of NLP with pure knowledge-based approaches.

But in the last fifteen years, a surprising shift has taken place within Linguistics. As I have taken pains to describe, we have learned how to deal with much of the complexity of natural language in computational tractable ways.

So why don't we have robust NLP yet? The reason, I would suggest, is in large part the fact that the AI community has limited success in developing computationally tractable theories of nonlinguistic (encyclopedic, commonsense or situational) knowledge and of how to reason about that knowledge. Perhaps we linguists will have to develop such theories ourselves, if NLP is ever to be."

Competencia oral primaria

[ Oralidad secundaria, terciaria]

Las cuestiones gramaticales que Sag da por resueltas (los logros de la gramática de enunciados) son muchas e importantes, pero valen como mucho para modelar la competencia lingüística de un infante de no más de cinco o seis años (es decir, la de un hablante que se encuentra en una etapa de incipiente alfabetización). Estos logros deberían satisfacer en gran medida la meta generativa, pero, obviamente no la del PLN, ya que la mayoría de las aplicaciones del PLN, si excluímos, naturalmente, el procesamiento del habla, se centran en el lenguaje escrito (como por ejemplo la traducción automática).

Sag hace hincapié en los avances de los llamados métodos de base lógica ("logic-based) y de satisfación de restricciones ("constraint satisfaction") que han hecho posible el tratamiento eficaz de las gramáticas de corte sintagmático herederas del planteamiento inicial de Chomsky.

Sag realiza una exhaustiva enumeración que yo me limitaré a reproducir mediante acrónimos por ser sobradamente conocidas: GPSG, LFG, HPSG, JPSG y CUG.

El problema de la resolución

(Sección sin completar.)

El problema de la resolución viene a decir que las gramáticas, por muy elaboradas y exhaustivas que pretendan ser, son en gran medida inservibles. Sag apunta al problema de que no disponemos de suficiente conocimiento semántico ni pragmático. Esto es cierto, pero creo que hay algo más que se nos escapa y sobre lo que volveremos más tarde.

Los corpus textuales

Lo que hemos presenciado en esta última década es un retorno a postulados empiristas como remedio a los problemas del simbolismo. Somos testigos de una febril obsesión por hacer acopio de datos, recolección de textos y creación de corpus de referencia. Todo el mundo cree ahora necesario partir de los datos para llegar a un conocimiento preciso de la gramática y del uso de la lengua. En este punto surge la duda que plantea Ken Church en el anuncio de tutorial Ngrams para el ACL-95 que se celebrará en el MIT este próximo mes:

"Text is more available than ever before: dictionaries, corpora, email, faxes. Many laboratories have tens of millions of words, and some even have billions.

What can we do with it all? It is better to do something than nothing at all. [...] Word and ngram counts have been used in a wide variety of applications: part of speech tagging, speech recognition, spelling corretion, text compression, word-sense disambiguation, information retrieval, and author identification. [...]

Probabilities depend on a variety of hidden variables: topic, author, genre, etc. How do we compensate for the fact that text is more than just a bag of words?"

Se ha de aceptar la necesidad de estudiar los corpus, pero ¿Son de verdad tan prometedores como algunos creen? ¿No estamos, en alguna medida, intentando matar moscas a cañonazos? ¿Qué es lo que realmente queremos hacer con ellos? O dicho de otra manera, ¿qué es lo que esperamos que las máquinas hagan por nosotros?

Inicio


Dirección de contacto: abaitua@fil.deusto.es. Facultad de Filosofía y Letras, Universidad de Deusto, E-48080 Bilbao. Febrero 2000