CNRS

Etiquetage grammatical multilingue: modèle - Jean Véronis and Liliane Khouri.
Document MULTEXT LEX2. Sections 4 and 5.


| Back to table of contents | See copyright and permission notice on title page. |


4. Directions futures

Même si EAGLES et MULTEXT ont permis de faire quelques pas vers une harmonisation et une meilleur comparabilité des jeux d'étiquettes pour les corpus, il est clair qu'il reste de nombreux problèmes non résolus.

Tout d'abord, l'inclusion de nouvelles langues ne saura manquer de créer de nouvelles interrogations, et menacer le fragile ensemble de compromis sous-jacent à nos travaux. Ainsi, l'extension du projet à des langues finno-ougriennes et slaves à travers MULTEXT-EAST a déjà fait apparaître la nécessité de nouvelles valeurs d'attributs (par exemple pour le système casuel très complexe de l'estonien), voire de nouveaux attributs[13]. Il est probable que l'inclusion d'autres langues, encore plus éloignées, telle que les langues africaines, obligera à remettre en cause la fragile division en catégories grammaticales adoptée ici. Il sera peut-être alors nécessaire d'avoir un modèle arborescent, proposant des catégories, attributs et valeurs commun à toutes les langues, puis d'autres propres à une famille, et enfin d'autres propres à une langue donnée.

Une autre direction intéressante consiste à essayer d'harmoniser quelque peu la couche privée. Il semble en effet que, si cette couche est manifestement ouverte, un certain nombre d'informations couramment utilisées pourraient faire l'objet d'une harmonisation minimale (par exemple, sous-types des noms, type d'auxiliaire associé aux participes passés, etc.).

Enfin, il est clair que nous manquons cruellement de critères pour définir l'extension des descriptions lexicales. Sur ce point, il semble que le désaccord entre théories soit assez grand, ou, pire, que les théories (même les plus formalisées) ne soient pas très précises.


5. Conclusion

Le travail présenté ici décrit les essais (modestes) d'harmonisation des jeux d'étiquettes réalisés dans le cadre du projet MULTEXT en coordination avec EAGLES. Nous avons conscience que les solutions proposées sont imparfaites, reposent sur des compromis, et que de nombreux problèmes restent à résoudre, mais ces deux projets auront permis de faire quelques pas sur un chemin difficile. La naissance de normes et standards est, dans tous les domaines, une opération longue et difficile, qui demande beaucoup de patience et de compromis, et les solutions adoptées sont par force généralement les moins audacieuses et les moins innovatrices : l'histoire en est pleine d'exemples dans tous les domaines, et l'informatique linguistique n'échappe pas à la règle. Mais mieux vaut des standards imparfaits que pas de standards du tout : il suffit de voyager à travers le monde avec son sèche-cheveux ou son rasoir pour s'en convaincre...
CNRS

NAVIGATOR

| Top | Next | Table of Contents | MULTEXT | LPL


HTML 3.2 Checked!