Etiquetage grammatical multilingue: modèle - Jean Véronis and Liliane Khouri.
Document MULTEXT LEX2. Sections 1 and 2.
| Back to table of contents
| See copyright and permission notice on title page
|
Ce document décrit le modèle d'étiquetage grammatical
développé dans le cadre du projet MULTEXT en collaboration avec
EAGLES. Ce modèle a été élaboré de
façon à harmoniser l'étiquetage de corpus multilingues,
mais il peut aussi permettre de systématiser les stratégies
d'étiquetage dans un contexte monolingue, et en particulier d'assurer la
comparabilité des jeux d'étiquettes: l'action d'évaluation
GRACE (voir Adda et al. 1995) a récemment adopté les
grandes lignes de ce modèle. Nous n'avons en aucun cas la
prétention d'avoir résolu le problème de façon
définitive. De nombreux problèmes restent ouverts, et
l'adjonction de langues supplémentaires (voire l'adaptation à de
nouvelles applications) imposera certainement une révision des
schémas proposés, mais cette étude marque un pas vers
l'harmonisation et la comparabilité des corpus étiquetés.
Le choix de jeux d'étiquettes pour l'étiquetage grammatical de
corpus est particulièrement délicat. De multiples jeux
d'étiquettes existent pour chaque langue, développés au
fil des années et au gré des projets par différents
groupes. Quiconque a essayé de réutiliser des corpus, des
lexiques ou des outils développés par d'autres a probablement
fait la cuisante expérience de l'incomparabilité des jeux
d'étiquettes qui oblige l'infolinguiste à des manipulations
et traductions toujours longues et pénibles, et
généralement peu fiables. Cette incomparabilité
intra-langue rend difficile la réutilisation de données (par
exemple l'utilisation de mon lexique avec un étiqueteur que je viens de
récupérer sur un site ftp, d'un corpus étiqueté par
d'autres pour entraîner l'étiqueteur que j'ai
développé, etc.) ou la combinaison de différents
étiqueteurs entre eux (par exemple probabiliste et déterministe).
Elle rend aussi difficile, voire impossible, l'évaluation des
étiqueteurs; de nombreux articles annoncent à l'heure actuelle
des résultats de l'ordre de 95 ou 97% de désambiguïsations
correctes, mais la comparaison de ces chiffres n'a aucun sens, étant
donné que l'on ne sait pas comparer les jeux d'étiquettes
utilisés[1].
Par ailleurs, dans ce cadre multilingue, l'incomparabilité intra-langue
se double malheureusement d'une incomparabilité inter-langues.
Ainsi, le fait d'utiliser NCMS pour les noms communs masculins singuliers en
français, et SMS en italien ne facilite pas la comparaison de textes
parallèles, bien qu'on puisse dans ce cas imaginer une simple table de
traduction faisant passer d'une étiquette à l'autre. Par contre,
dans de multiples cas, on retrouve une incomparabilité
irréductible de même nature que l'incomparabilité
intra-langue, qu'une simple table de traduction ne saurait permettre de
traiter. Or, dans un contexte multilingue, il est important pour l'utilisateur
humain[2] comme pour de multiples applications
informatiques (alignement automatique, extraction terminologique multilingue,
etc.), que des phénomènes identiques soient codés de
façon analogue.
La première source d'incomparabilité provient de la
différence de nature des informations qui sont censées être
rendues par les étiquettes. Cette différence provient de causes
multiples : différences de principes des étiqueteurs,
différences d'applications pour les textes étiquetés, etc.
Ainsi, on observe par exemple que :
- certains étiqueteurs marquent la forme indépendamment du
contexte, d'autre la marquent en contexte (par exemple, dans la phrase
<<le oui qu'il a prononcé sonnait faux>>, oui
peut-être codé hors-contexte comme adverbe, ou en contexte comme
nom)[3];
- certains étiqueteurs se cantonnent à des informations
purement morpho-syntaxiques, d'autres incluent des informations syntaxiques
(par exemple, SUBSU pour "substantif sujet") ou sémantiques, que ce soit
pour les besoins de l'application visée, ou pour accroître les
performances des étiqueteurs (par exemple, le jeu d'étiquettes
d'IBM France[4] distingue des noms propres "de
ville", "de pays", "de personne", "de société", etc.).
Une autre source d'incomparabilité provient de divergences
théoriques. On peut ainsi par exemple avoir des étiquettes pour
les articles, et considérer les possessifs (mon, ton, son, etc.)
comme faisant partie des adjectifs, ou bien inclure les uns et les autres dans
une catégorie "déterminants". Cet exemple est clair et simple,
mais les différences sont parfois plus subtiles (par exemple, pour les
pronoms, etc.). De plus, la modestie oblige de reconnaître l'absence de
théorie bien claire pour un certain nombre de phénomènes
(voir tout le domaine des adjectifs indéfinis en français, par
exemple). A noter enfin, dans un contexte multilingue, les différences
de traditions, en particulier entre langues romanes et germaniques, qui rendent
difficile l'obtention d'un consensus entre groupes.
Une cause importante de la multiplication des jeux d'étiquettes pour
chaque langue est l'aspect expérimental de l'activité
d'étiquetage. En particulier, les étiqueteurs probabilistes sont
très sensibles au jeu d'étiquettes qu'on leur donne. Ainsi, en
français, on peut expérimenter un grand nombre de jeux
d'étiquettes d'une taille variant d'une dizaine (les partie du discours
traditionnelles) à plusieurs centaines. Trop grossier, le jeu
d'étiquettes ne permet pas de capturer assez de propriétés
distributionnelles à travers les transitions markoviennes. Trop fin, il
impose des tailles de corpus gigantesques pour avoir un échantillon
suffisant de transitions observées lors de l'apprentissage (en
particulier lors de l'utilisation de trigrammes). De plus, certaines
dépendances à long terme dans la phrase (par exemple pour la
reconnaissance du subjonctif) sont hors de portée de bien des
étiqueteurs, ce qui conduit donc à une sous-spécification
systématique (par exemple, l'opposition indicatif/subjonctif en
français est généralement neutralisée dans les jeux
d'étiquettes des étiqueteurs probabilistes). La plupart des
étiqueteurs probabilistes du français utilisent un jeu
d'étiquettes de l'ordre[5] de 70
à 150, ordre de grandeur qui semble donner les meilleurs
résultats, mais il faut souligner qu'il n'y a pas de règle connue
permettant de relier les performances à la taille (et à la
composition) des jeux d'étiquettes, et très peu de
résultats publiés sur le sujet.
Même si l'on est d'accord sur le jeu d'étiquettes, leurs
extensions (c'est-à-dire l'ensemble des formes lexicales qu'elles
couvrent) peuvent être différentes. Le problème est
particulièrement aigu pour les catégories fermées,
déterminants, pronoms, adjectifs indéfinis, etc. où l'on
rencontre de très grosses différences d'appréciation quant
au placement des mots dans les catégories, et ce dans la plupart des
langues. Les critères sont souvent peu clairs, et les théories
linguistiques, même très formalisées, sont
généralement peu précises sur le sujet. Ainsi, à
l'intérieur d'un même système où l'on distinguerait,
mettons des "déterminants" et des "numéraux", on peut prendre
plusieurs décisions concernant le mot un : on peut en faire
un déterminant et un numéral, ou bien un déterminant et
pas un numéral. Les deux décisions sont tout-à-fait
légitimes : la première reflète le point de vue selon
lequel dans <<j'ai vu un chat et deux chiens>>, un
serait un numéral; la deuxième reflète le point de vue
selon lequel une telle distinction est douteuse[6], et en tout cas crée une
ambiguïté impossible à lever par des systèmes
automatiques. On pourrait multiplier les exemples.
Une difficulté supplémentaire apparaît dans le cadre
multilingue, due au fait que les phénomènes morpho-syntaxiques
que l'on cherche à représenter par des étiquettes ne sont
pas forcément les mêmes dans les différentes langues. Par
exemple, les informations concernant le genre des noms n'ont pas
d'équivalent possible en anglais. Les différences ne sont
malheureusement pas toujours aussi tranchées et l'on observe toute une
panoplie de faux-amis, faux-ennemis et cas insolites. Ainsi, en français
le système des pronoms personnels a certaines ressemblances avec le
système casuel que l'on observe dans des langues comme l'allemand, qui
distinguent par exemple le nominatif (ich), le génitif
(meiner), le datif (mir) et l'accusatif (mich). Faut-il,
pour des raisons d'harmonisation, voir dans le système français
un système de cas? Et, si oui, peut-on réduire le système
français à des valeurs telles que nominatif, accusatif, etc.?
Nous développerons un peu plus en détail cet exemple pour bien
faire comprendre la difficulté d'harmoniser des catégories et des
étiquettes dans un système multilingue. On s'accorde ainsi (plus
ou moins) à distinguer trois formes des pronoms personnels en
français :
- sujet : je, tu, il, elle, nous, vous, ils, elles
- objet : me, te, le, la, lui, se, nous, vous, les, leur, se
- autres : moi, toi, lui, elle, soi, nous, vous, eux, elles,
soi
La catégorie "autres" est assez difficile à
définir précisément. Elle regroupe une
variété d'occurrences telles que le renforcement du sujet ou de
l'objet (<<Moi, je le dis! >>), l'attribut
(<<C'est moi>>), etc. Certains parlent aussi de formes
conjointes et disjointes. La correspondance ci-dessous est-elle
légitime?
Nominatif | Sujet
|
Accusatif | Objet direct
|
Datif | Objet indirect
|
Oblique | Autres
|
A part un réajustement terminologique, cette solution impose de diviser
"objet" en "objet direct" et "objet indirect", distinction qui n'est valable
que pour la troisième personne en français (direct : le,
la, les; indirect : lui, leur).
Aux difficultés de la comparaison des langues deux à deux
s'ajoute une multiplication de la difficulté avec l'accroissement du
nombre de langues. Ainsi, même si l'on résout le cas des pronoms
ci-dessus, comment traitera-t-on les formes "toniques" (sujet : io,
egli; objet : me, lui) et "atones" (objet : mi,
gli/lo) de l'italien?
NAVIGATOR
| Top
| Next
| Table of Contents
| MULTEXT
| LPL