Etiquetage grammatical multilingue: modèle - Jean Véronis and Liliane Khouri.
Document MULTEXT LEX2. Sections 4 and 5.
| Back to table of contents | See copyright and permission notice on title page. |
Tout d'abord, l'inclusion de nouvelles langues ne saura manquer de créer de nouvelles interrogations, et menacer le fragile ensemble de compromis sous-jacent à nos travaux. Ainsi, l'extension du projet à des langues finno-ougriennes et slaves à travers MULTEXT-EAST a déjà fait apparaître la nécessité de nouvelles valeurs d'attributs (par exemple pour le système casuel très complexe de l'estonien), voire de nouveaux attributs[13]. Il est probable que l'inclusion d'autres langues, encore plus éloignées, telle que les langues africaines, obligera à remettre en cause la fragile division en catégories grammaticales adoptée ici. Il sera peut-être alors nécessaire d'avoir un modèle arborescent, proposant des catégories, attributs et valeurs commun à toutes les langues, puis d'autres propres à une famille, et enfin d'autres propres à une langue donnée.
Une autre direction intéressante consiste à essayer d'harmoniser quelque peu la couche privée. Il semble en effet que, si cette couche est manifestement ouverte, un certain nombre d'informations couramment utilisées pourraient faire l'objet d'une harmonisation minimale (par exemple, sous-types des noms, type d'auxiliaire associé aux participes passés, etc.).
Enfin, il est clair que nous manquons cruellement de critères pour définir l'extension des descriptions lexicales. Sur ce point, il semble que le désaccord entre théories soit assez grand, ou, pire, que les théories (même les plus formalisées) ne soient pas très précises.