CNRS

Etiquetage grammatical multilingue: modèle - Jean Véronis and Liliane Khouri.
Document MULTEXT LEX2. Section 3.


| Back to table of contents | See copyright and permission notice on title page. |


3. Modèle

Dans un projet comme MULTEXT, où la préoccupation principale est la généricité et la réutilisabilité des ressources et outils dans un contexte fortement multilingue, il est clair que des solutions devaient être trouvées pour assurer la comparabilité intra- et inter-langues des étiquettes. Le problème est difficile, comme les considérations de la section précédente peuvent le laisser entrevoir. MULTEXT n'a en aucun cas la prétention d'avoir résolu le problème de façon définitive. De nombreux problèmes restent ouverts, et l'adjonction de langues supplémentaires (voire l'adaptation à de nouvelles applications) imposera certainement une révision des schémas proposés. Toutefois, reconnaître et admettre la difficulté du problème global (assurer la comparabilité d'étiquettes dans un grand nombre de langues) ne doit pas empêcher des solutions locales, qui permettraient de faire un progrès, c'est-à-dire quelques pas entre le "rien" (incomparabilité totale) et le "tout" (comparabilité totale). L'approche adoptée par MULTEXT, à la suite d'EAGLES, se situe dans cette optique, éminemment pratique, et n'a aucune visée théorique. Les catégories proposées n'ont d'autre but que de fournir un langage commun permettant (au moins partiellement) la description et la comparaison des systèmes. Il est clair que les progrès dans ce domaine ne peuvent être que lents et progressifs; ils présupposent des avancées techniques et théoriques, mais aussi une évolution des points de vues, écoles et terminologies.

3.1. Principes

Les principes adoptés par MULTEXT sont basés sur un postulat : l'impossibilité d'avoir un jeu d'étiquettes unique pour une langue, et encore moins pour des langues diverses. Les jeux d'étiquettes doivent pouvoir varier selon les langues (par exemple coder le genre pour les langues romanes, mais pas pour l'anglais), et les applications, et de plus doivent permettre l'expérimentation, c'est-à-dire la modification rapide et fréquente en vue de l'optimisation des étiqueteurs.

Le premier principe impose une séparation des descriptions lexicales et des étiquettes de corpus. Dans beaucoup de systèmes d'étiquetage qu'il nous a été possible d'observer, les étiquettes sont codées "en dur" dans le lexique, c'est-à-dire qu'à chaque forme graphique est associée son lemme et une étiquette. Ce mode de représentation des listes lexicales est toutefois très rigide. D'une part, la modification de la définition ou de l'extension d'une étiquette impose des modifications globales du lexique, qui sont peu propices à une optimisation des étiqueteurs. D'autre part, la comparaison des jeux d'étiquettes entre systèmes ou entre langues est très difficile, pour les raisons évoquées précédemment.

MULTEXT propose donc un modèle à deux niveaux, dans lequel le lexique contient une information de très fine granularité, et en principe stable (les descriptions lexicales) et le corpus contient des étiquettes de corpus de granularité généralement grossière, c'est-à-dire qui sous-spéficient les descriptions lexicales. Le passage des descriptions lexicales aux étiquettes de corpus se fait par une traduction (figure 1). Un postulat implicite est qu'il est plus facile de trouver un consensus au niveau des descriptions lexicales (qui décrivent la langue) qu'au niveau des étiquettes (qui tiennent compte de nombreux paramètres plus ou moins subjectifs : l'application, l'étiqueteur, etc.). On aura ainsi, en français, un accord assez large sur le fait que viens est à l'indicatif et vienne est au subjonctif, même si des divergences sont certaines quand à la représentation de ces informations au niveau des étiquettes de corpus.

Figure 1 : Descriptions lexicales et étiquettes de corpus

Le deuxième principe est un principe applicatif, c'est-à-dire que la traduction des descriptions lexicales vers les étiquettes de corpus doit être une application au sens mathématique du terme[7]. Ce principe permet d'opérer la traduction des descriptions lexicales en étiquettes de corpus par une simple table, sans référence au lexique. Si ce principe est respecté, en admettant que les descriptions lexicales soient stables, la modification du jeu d'étiquettes demande la seule modification de la table de correspondance. Par ailleurs, ce principe permet une définition précise de chaque jeu d'étiquettes, ce qui est appréciable, et constitue un élément important de la comparabilité. Enfin, le jeu des traductions permet, dans une certaine mesure, de s'affranchir des divergences théoriques : il suffit que le niveau de granularité des descriptions lexicales soit suffisamment fin pour que les tenants des théories les plus diverses puissent traduire les descriptions lexicales en d'autres qu'ils affectionnent plus particulièrement.

Figure 2 : Principe applicatif

3.2. Descriptions lexicales

3.2.1. Noyau commun

La première étape a été la détermination d'un "noyau commun" aux diverses langues et aux diverses applications, et la définition d'un bon niveau de granularité. Nous avons largement utilisé ici le travail effectué par le groupe EAGLES (voir Monachini et Calzolari, 1994)[8]. Les spécifications proposées par EAGLES résultent de l'observation d'un certain nombre de projets lexicaux et de projets sur les corpus en Europe. Cette observation a permis de dégager des constantes et des traits communs aux différents systèmes et aux diverses langues, et de dégager un noyau d'informations morpho-syntaxiques sur lesquelles un consensus assez large peut être établi. Le système proposé par EAGLES est un système à plusieurs couches, dont la première est le noyau commun morpho-syntaxique. Ce noyau se complète par des couches d'informations optionnelles, ou propres à des applications particulières. Ce modèle a l'avantage de permettre l'harmonisation nécessaire à la comparabilité tout en permettant une grande flexibilité. Nous reprenons cette idée dans MULTEXT en utilisant deux couches, le noyau commun, et une couche privée additionnelle (figure 3). MULTEXT n'a pour ambition que d'harmoniser le noyau commun.

Figure 3 : Noyau commun et couche privée

Le nombre et la nature des informations que des étiquettes de corpus peuvent encoder est potentiellement infini. Nous avons mentionné plus haut que certains systèmes distinguent parmi les noms propres les villes, les pays, les personnes, les sociétés. Rien n'interdit d'aller plus loin dans la granularité (prénoms, noms de famille, noms de fleuves et rivières, de régions, de départements, etc.); il est probable que certaines applications y trouveraient leur bénéfice. Des subdivisions analogues peuvent s'appliquer à toutes les catégories : certains systèmes distinguent parmi les noms communs les jours de la semaine, les noms de mois, parmi les verbes, les verbes de type "dire, déclarer, suggérer, etc." (qui ont un intérêt dans les textes journalistiques, ainsi qu'une distribution particulière).

Nous n'avons pas la prétention d'étendre la comparabilité à toute cette gamme (ouverte) d'informations, et MULTEXT a pris une position très minimaliste en ce qui concerne l'étendue du noyau commun. N'y figurent que des informations de nature clairement morpho-syntaxique, et parmi celles-ci, uniquement celles qui font l'objet d'un large consensus.

3.2.2. Catégories grammaticales

La sélection d'un ensemble de catégories grammaticales qui fasse l'unanimité est clairement une tâche impossible, et toute solution ne peut être qu'un compromis. Les catégories adoptées pour MULTEXT sont données par la figure 4.

Category Code
Noun N
Verb V
Adjective A
Pronoun P
Determiner D
Adverb R
Adposition S
Conjunction C
Numeral M
Interjection I
Residual X

Figure 4 : Catégories grammaticales EAGLES/MULTEXT

La plupart des catégories s'expliquent d'elles-mêmes (bien qu'il ne soit pas toujours évident de définir avec précision leur extension). On notera la classe des numéraux, qui permet de s'affranchir du délicat problème de leur classement dans les parties du discours traditionnelles (en français, ils fonctionnent à la fois comme adjectifs, noms ou pronoms). A nouveau, il est possible d'opérer des traductions appropriés pour modifier le classement. La classe X concerne tous les objets au statut lexical incertain, et qui en tous cas ne semblent pas relever des parties du discours classiques (symboles, dates, parties de locutions au statut non autonome, etc.).

3.2.3. Attributs et valeurs

Les descriptions lexicales de MULTEXT sont représentées par des couples attribut-valeur (structures de traits typées[9]). par exemple, un nom commun masculin singulier sera représenté par la structure de traits suivante :

N[type=common gender=masculine number=singular case=n/a]

Pour des raisons d'harmonisation entre langues, certains attributs (tels que le cas) sont présents, mais ne s'appliquent pas à une catégorie donnée dans telle ou telle langue, ce que traduit la valeur n/a ("not applicable"). D'autres attributs s'appliquent à la catégorie dans la langue considérée, mais ne s'appliquent pas à certaines de ses sous-catégories. Par exemple pour les verbes français, le genre ne s'applique qu'au participe passé alors que la personne ne s'applique pas. On aura donc, par exemple pour la première personne de l'indicatif présent :

V[type=main mood=indicative tense=present
person=first number=singular gender=n/a]

et pour le participe passé féminin :

V[type=main mood=participle tense=past person=n/a
number=singular gender=feminine][10]

Une version prélimianire des catégories grammaticales, attributs et valeurs retenus pour le noyau commun du projet MULTEXT est décrite dans (Bel et al. 1995)[11]. Voir la figure 5 ci-après, par exemple, pour les noms et les verbes. On notera un certain nombre de compromis et de décisions arbitraires. Ainsi, le conditionnel qui est classé dans les modes (à la façon de la grammaire traditionnelle) pourrait peut-être, d'une façon plus linguistiquement correcte, être classé dans les temps, mais une traduction immédiate est possible entre l'une et l'autre convention, et la question ne semble pas valoir une controverse.

3.2.4. Représentation compacte

Le projet MULTEXT propose une représentation compacte des structures de traits, inspirée de (Leech et Wilson 1994). Chaque structure de traits est codée sous forme d'une chaîne de caractères où : Exemples :

N[type=common gender=masculine number=singular]Ncms-
V[type=main mood=indicative tense=present
person=first number=singular]
Vmip1s--

Cette représentation compacte permet également de représenter la sous-spécification par des expressions régulières (voir ci-après).

Noun
Pos. Attribute Value Code
1Typecommonc
proper p
2Gendermasculine m
feminine f
neuter n
3Number singular s
plural p
4Case nominative n
genitive g
dative d
accusative a

Verb
Pos. Attribute Value Code
1Type main m
auxiliary a
modal o
2Mood/Form indicative i
subjunctive s
imperative m
conditional c
infinitive n
participle p
gerund g
supine s
base b
3Tense present p
imperfect i
future f
past s
4Person first 1
second 2
third 3
5Number singular s
plural p
6Gender masculine m
feminine f
neuter n

Figure 5 : Tables attribut-valeurs pour les noms et les verbes

3.3. Traduction en étiquettes

Dans le modèle MULTEXT, chaque langue est sous-spécifiée par rapport au système général (c'est-à-dire la totalité des combinaisons attribut-valeur possibles). De plus, chaque jeu d'étiquettes pour une langue est sous-spécifié par rapport au système maximal de cette langue.

Ainsi, le français est sous-spécifié en ce qui concerne le trait "cas" pour les noms, qui est inapplicable; pour les verbes, le trait "genre" n'est pas applicable pour les formes conjuguées; etc. Par contre, à l'intérieur du système possible pour le français, on peut prendre la décision de ne pas représenter le mode et le temps des verbes (informations notoirement difficiles à désambiguïser automatiquement) dans un jeu d'étiquettes donné. Dans ce cas, le système particulier d'un jeu d'étiquettes est sous-spécifié par rapport au système maximal possible pour le français. Par exemple, dans la figure 6, l'étiquette VM1S est sous-spécifiée en ce sens qu'elle ignore le mode et le temps, et elle correspond à sept descriptions lexicales attestées dans le lexique.

Descr. lex. Etiquette Exemple
Vmip1s- VM1S viens
Vmii1s- VM1S venais
Vmif1s- VM1S viendrai
Vmsp1s- VM1S vienne
Vmsi1s- VM1S vinsse
Vmcp1s- VM1S viendrais
Vmis1s- VM1S vins

Figure 6 : Sous-spécification des étiquettes

Le principe applicatif permet de définir de façon formelle les étiquettes utilisées. Par exemple, l'étiquette VM1S de l'exemple précédent se définira comme

V[type=main mood=any tense=any person=first number=singular]

où la valeur any représente la disjonction de toutes les valeurs possibles pour un attribut donné[12].

Nous proposons de représenter de façon compacte la sous-spécification par des expressions régulières, à l'aide des opérateurs suivants :

a.Joker ('.')

Cet opérateur permet de noter que toute valeur est autorisée pour l'attribut concerné. Exemple :

Vmi.2s-Verbe principal, indicatif,
2ème personne du singulier

b. Disjonction (...|...)

Cet opérateur permet de lister de façon extensive des alternatives possibles. Exemple :

(Ncf.-|Vmip2s- )Nom commun féminin ou Verbe principal, indicatif, 2ème personne du singulier (par exemple "souris").

c. Listes [ ... ] et [^ ... ]

L'opérateur de liste [ ... ] permet de représenter un ensemble de valeurs. Par exemple, [ab] représente a ou b. L'opérateur [^ ... ] permet de représenter le complément d'un ensemble, c'est-à-dire toutes les valeurs autres que celles spécifiées. Par exemple, [^ab] représente toutes les valeurs possibles, sauf a et b. Exemples :

Vm[isc].2s- Verbe principal, indicatif, subjonctif ou conditionnel, 2ème personne du singulier
Vm[^s]p2s- Verbe principal, mode non subjonctif, présent, 2ème personne du singulier

Avec ces conventions, l'étiquette VM1S mentionnée plus haut peut se définir par l'expression régulière :

Vm..1s-

ou, de façon équivalente (pour le français) :

Vm[iscm][pifs]1s-

Le lecteur aura noté que la définition des étiquettes n'est possible que si le principe applicatif est respecté. Ainsi, dans le cas ci-dessous

FranceN[type=proper gender=feminine number=singular]XPAYS
MarieN[type=proper gender=feminine number=singular]XPERS

le principe applicatif n'est pas respecté, puisque la même description lexicale correspond à des étiquettes différentes selon l'entrée lexicale.

Si les utilisateurs souhaitent opérer de telles distinctions, il faut qu'ils restaurent le principe applicatif en ajoutant des attributs adéquats dans la couche privée du modèle (qui correspondront à des caractères supplémentaire en fin de chaîne dans la représentation compacte). Ainsi, par exemple, un attribut "sous-type" permet de désambiguïser les noms propres, et l'on pourra définir les étiquettes XPAYS et XPERS comme :

XPAYSN[type=proper subtype=country]
XPERSN[type=proper subtype=person]


CNRS

NAVIGATOR

| Top | Next | Table of Contents | MULTEXT | LPL


HTML 3.2 Checked!