Introduction & problématique

Etiquetage grammatical multilingue: modèle - Jean Véronis and Liliane Khouri.
Document MULTEXT LEX2. Sections 1 and 2.

| Back to table of contents | See copyright and permission notice on title page |

1. Introduction

Ce document décrit le modèle d'étiquetage grammatical développé dans le cadre du projet MULTEXT en collaboration avec EAGLES. Ce modèle a été élaboré de façon à harmoniser l'étiquetage de corpus multilingues, mais il peut aussi permettre de systématiser les stratégies d'étiquetage dans un contexte monolingue, et en particulier d'assurer la comparabilité des jeux d'étiquettes: l'action d'évaluation GRACE (voir Adda et al. 1995) a récemment adopté les grandes lignes de ce modèle. Nous n'avons en aucun cas la prétention d'avoir résolu le problème de façon définitive. De nombreux problèmes restent ouverts, et l'adjonction de langues supplémentaires (voire l'adaptation à de nouvelles applications) imposera certainement une révision des schémas proposés, mais cette étude marque un pas vers l'harmonisation et la comparabilité des corpus étiquetés.

2. Problématique

2.1. Incomparabilité des jeux d'étiquettes

Le choix de jeux d'étiquettes pour l'étiquetage grammatical de corpus est particulièrement délicat. De multiples jeux d'étiquettes existent pour chaque langue, développés au fil des années et au gré des projets par différents groupes. Quiconque a essayé de réutiliser des corpus, des lexiques ou des outils développés par d'autres a probablement fait la cuisante expérience de l'incomparabilité des jeux d'étiquettes qui oblige l'infolinguiste à des manipulations et traductions toujours longues et pénibles, et généralement peu fiables. Cette incomparabilité intra-langue rend difficile la réutilisation de données (par exemple l'utilisation de mon lexique avec un étiqueteur que je viens de récupérer sur un site ftp, d'un corpus étiqueté par d'autres pour entraîner l'étiqueteur que j'ai développé, etc.) ou la combinaison de différents étiqueteurs entre eux (par exemple probabiliste et déterministe). Elle rend aussi difficile, voire impossible, l'évaluation des étiqueteurs; de nombreux articles annoncent à l'heure actuelle des résultats de l'ordre de 95 ou 97% de désambiguïsations correctes, mais la comparaison de ces chiffres n'a aucun sens, étant donné que l'on ne sait pas comparer les jeux d'étiquettes utilisés[1].

Par ailleurs, dans ce cadre multilingue, l'incomparabilité intra-langue se double malheureusement d'une incomparabilité inter-langues. Ainsi, le fait d'utiliser NCMS pour les noms communs masculins singuliers en français, et SMS en italien ne facilite pas la comparaison de textes parallèles, bien qu'on puisse dans ce cas imaginer une simple table de traduction faisant passer d'une étiquette à l'autre. Par contre, dans de multiples cas, on retrouve une incomparabilité irréductible de même nature que l'incomparabilité intra-langue, qu'une simple table de traduction ne saurait permettre de traiter. Or, dans un contexte multilingue, il est important pour l'utilisateur humain[2] comme pour de multiples applications informatiques (alignement automatique, extraction terminologique multilingue, etc.), que des phénomènes identiques soient codés de façon analogue.

2.2. Sources d'incomparabilité

2.2.1. Que marque-t-on?

La première source d'incomparabilité provient de la différence de nature des informations qui sont censées être rendues par les étiquettes. Cette différence provient de causes multiples : différences de principes des étiqueteurs, différences d'applications pour les textes étiquetés, etc. Ainsi, on observe par exemple que :

certains étiqueteurs marquent la forme indépendamment du contexte, d'autre la marquent en contexte (par exemple, dans la phrase <<le oui qu'il a prononcé sonnait faux>>, oui peut-être codé hors-contexte comme adverbe, ou en contexte comme nom)[3];
certains étiqueteurs se cantonnent à des informations purement morpho-syntaxiques, d'autres incluent des informations syntaxiques (par exemple, SUBSU pour "substantif sujet") ou sémantiques, que ce soit pour les besoins de l'application visée, ou pour accroître les performances des étiqueteurs (par exemple, le jeu d'étiquettes d'IBM France[4] distingue des noms propres "de ville", "de pays", "de personne", "de société", etc.).

2.2.2. Divergences théoriques

Une autre source d'incomparabilité provient de divergences théoriques. On peut ainsi par exemple avoir des étiquettes pour les articles, et considérer les possessifs (mon, ton, son, etc.) comme faisant partie des adjectifs, ou bien inclure les uns et les autres dans une catégorie "déterminants". Cet exemple est clair et simple, mais les différences sont parfois plus subtiles (par exemple, pour les pronoms, etc.). De plus, la modestie oblige de reconnaître l'absence de théorie bien claire pour un certain nombre de phénomènes (voir tout le domaine des adjectifs indéfinis en français, par exemple). A noter enfin, dans un contexte multilingue, les différences de traditions, en particulier entre langues romanes et germaniques, qui rendent difficile l'obtention d'un consensus entre groupes.

2.2.3. Caractère expérimental

Une cause importante de la multiplication des jeux d'étiquettes pour chaque langue est l'aspect expérimental de l'activité d'étiquetage. En particulier, les étiqueteurs probabilistes sont très sensibles au jeu d'étiquettes qu'on leur donne. Ainsi, en français, on peut expérimenter un grand nombre de jeux d'étiquettes d'une taille variant d'une dizaine (les partie du discours traditionnelles) à plusieurs centaines. Trop grossier, le jeu d'étiquettes ne permet pas de capturer assez de propriétés distributionnelles à travers les transitions markoviennes. Trop fin, il impose des tailles de corpus gigantesques pour avoir un échantillon suffisant de transitions observées lors de l'apprentissage (en particulier lors de l'utilisation de trigrammes). De plus, certaines dépendances à long terme dans la phrase (par exemple pour la reconnaissance du subjonctif) sont hors de portée de bien des étiqueteurs, ce qui conduit donc à une sous-spécification systématique (par exemple, l'opposition indicatif/subjonctif en français est généralement neutralisée dans les jeux d'étiquettes des étiqueteurs probabilistes). La plupart des étiqueteurs probabilistes du français utilisent un jeu d'étiquettes de l'ordre[5] de 70 à 150, ordre de grandeur qui semble donner les meilleurs résultats, mais il faut souligner qu'il n'y a pas de règle connue permettant de relier les performances à la taille (et à la composition) des jeux d'étiquettes, et très peu de résultats publiés sur le sujet.

2.2.3. Extension des étiquettes

Même si l'on est d'accord sur le jeu d'étiquettes, leurs extensions (c'est-à-dire l'ensemble des formes lexicales qu'elles couvrent) peuvent être différentes. Le problème est particulièrement aigu pour les catégories fermées, déterminants, pronoms, adjectifs indéfinis, etc. où l'on rencontre de très grosses différences d'appréciation quant au placement des mots dans les catégories, et ce dans la plupart des langues. Les critères sont souvent peu clairs, et les théories linguistiques, même très formalisées, sont généralement peu précises sur le sujet. Ainsi, à l'intérieur d'un même système où l'on distinguerait, mettons des "déterminants" et des "numéraux", on peut prendre plusieurs décisions concernant le mot un : on peut en faire un déterminant et un numéral, ou bien un déterminant et pas un numéral. Les deux décisions sont tout-à-fait légitimes : la première reflète le point de vue selon lequel dans <<j'ai vu un chat et deux chiens>>, un serait un numéral; la deuxième reflète le point de vue selon lequel une telle distinction est douteuse[6], et en tout cas crée une ambiguïté impossible à lever par des systèmes automatiques. On pourrait multiplier les exemples.

2.2.4. Différences entre les langues

Une difficulté supplémentaire apparaît dans le cadre multilingue, due au fait que les phénomènes morpho-syntaxiques que l'on cherche à représenter par des étiquettes ne sont pas forcément les mêmes dans les différentes langues. Par exemple, les informations concernant le genre des noms n'ont pas d'équivalent possible en anglais. Les différences ne sont malheureusement pas toujours aussi tranchées et l'on observe toute une panoplie de faux-amis, faux-ennemis et cas insolites. Ainsi, en français le système des pronoms personnels a certaines ressemblances avec le système casuel que l'on observe dans des langues comme l'allemand, qui distinguent par exemple le nominatif (ich), le génitif (meiner), le datif (mir) et l'accusatif (mich). Faut-il, pour des raisons d'harmonisation, voir dans le système français un système de cas? Et, si oui, peut-on réduire le système français à des valeurs telles que nominatif, accusatif, etc.?

Nous développerons un peu plus en détail cet exemple pour bien faire comprendre la difficulté d'harmoniser des catégories et des étiquettes dans un système multilingue. On s'accorde ainsi (plus ou moins) à distinguer trois formes des pronoms personnels en français :

sujet : je, tu, il, elle, nous, vous, ils, elles
objet : me, te, le, la, lui, se, nous, vous, les, leur, se
autres : moi, toi, lui, elle, soi, nous, vous, eux, elles, soi

La catégorie "autres" est assez difficile à définir précisément. Elle regroupe une variété d'occurrences telles que le renforcement du sujet ou de l'objet (<<Moi, je le dis! >>), l'attribut (<<C'est moi>>), etc. Certains parlent aussi de formes conjointes et disjointes. La correspondance ci-dessous est-elle légitime?

Nominatif	Sujet
Accusatif	Objet direct
Datif	Objet indirect
Oblique	Autres

A part un réajustement terminologique, cette solution impose de diviser "objet" en "objet direct" et "objet indirect", distinction qui n'est valable que pour la troisième personne en français (direct : le, la, les; indirect : lui, leur).

Aux difficultés de la comparaison des langues deux à deux s'ajoute une multiplication de la difficulté avec l'accroissement du nombre de langues. Ainsi, même si l'on résout le cas des pronoms ci-dessus, comment traitera-t-on les formes "toniques" (sujet : io, egli; objet : me, lui) et "atones" (objet : mi, gli/lo) de l'italien?

NAVIGATOR