Etiquetage grammatical multilingue: modèle - Jean Véronis and Liliane Khouri.
Document MULTEXT LEX2. Section 3.
| Back to table of contents | See copyright and permission notice on title page. |
Le premier principe impose une séparation des descriptions lexicales et des étiquettes de corpus. Dans beaucoup de systèmes d'étiquetage qu'il nous a été possible d'observer, les étiquettes sont codées "en dur" dans le lexique, c'est-à-dire qu'à chaque forme graphique est associée son lemme et une étiquette. Ce mode de représentation des listes lexicales est toutefois très rigide. D'une part, la modification de la définition ou de l'extension d'une étiquette impose des modifications globales du lexique, qui sont peu propices à une optimisation des étiqueteurs. D'autre part, la comparaison des jeux d'étiquettes entre systèmes ou entre langues est très difficile, pour les raisons évoquées précédemment.
MULTEXT propose donc un modèle à deux niveaux, dans lequel le lexique contient une information de très fine granularité, et en principe stable (les descriptions lexicales) et le corpus contient des étiquettes de corpus de granularité généralement grossière, c'est-à-dire qui sous-spéficient les descriptions lexicales. Le passage des descriptions lexicales aux étiquettes de corpus se fait par une traduction (figure 1). Un postulat implicite est qu'il est plus facile de trouver un consensus au niveau des descriptions lexicales (qui décrivent la langue) qu'au niveau des étiquettes (qui tiennent compte de nombreux paramètres plus ou moins subjectifs : l'application, l'étiqueteur, etc.). On aura ainsi, en français, un accord assez large sur le fait que viens est à l'indicatif et vienne est au subjonctif, même si des divergences sont certaines quand à la représentation de ces informations au niveau des étiquettes de corpus.
Figure 1 : Descriptions lexicales et étiquettes de corpus
Le deuxième principe est un principe applicatif, c'est-à-dire que la traduction des descriptions lexicales vers les étiquettes de corpus doit être une application au sens mathématique du terme[7]. Ce principe permet d'opérer la traduction des descriptions lexicales en étiquettes de corpus par une simple table, sans référence au lexique. Si ce principe est respecté, en admettant que les descriptions lexicales soient stables, la modification du jeu d'étiquettes demande la seule modification de la table de correspondance. Par ailleurs, ce principe permet une définition précise de chaque jeu d'étiquettes, ce qui est appréciable, et constitue un élément important de la comparabilité. Enfin, le jeu des traductions permet, dans une certaine mesure, de s'affranchir des divergences théoriques : il suffit que le niveau de granularité des descriptions lexicales soit suffisamment fin pour que les tenants des théories les plus diverses puissent traduire les descriptions lexicales en d'autres qu'ils affectionnent plus particulièrement.
Figure 2 : Principe applicatif
Figure 3 : Noyau commun et couche privée
Le nombre et la nature des informations que des étiquettes de corpus peuvent encoder est potentiellement infini. Nous avons mentionné plus haut que certains systèmes distinguent parmi les noms propres les villes, les pays, les personnes, les sociétés. Rien n'interdit d'aller plus loin dans la granularité (prénoms, noms de famille, noms de fleuves et rivières, de régions, de départements, etc.); il est probable que certaines applications y trouveraient leur bénéfice. Des subdivisions analogues peuvent s'appliquer à toutes les catégories : certains systèmes distinguent parmi les noms communs les jours de la semaine, les noms de mois, parmi les verbes, les verbes de type "dire, déclarer, suggérer, etc." (qui ont un intérêt dans les textes journalistiques, ainsi qu'une distribution particulière).
Nous n'avons pas la prétention d'étendre la comparabilité à toute cette gamme (ouverte) d'informations, et MULTEXT a pris une position très minimaliste en ce qui concerne l'étendue du noyau commun. N'y figurent que des informations de nature clairement morpho-syntaxique, et parmi celles-ci, uniquement celles qui font l'objet d'un large consensus.
Category | Code |
---|---|
Noun | N |
Verb | V |
Adjective | A |
Pronoun | P |
Determiner | D |
Adverb | R |
Adposition | S |
Conjunction | C |
Numeral | M |
Interjection | I |
Residual | X |
Figure 4 : Catégories grammaticales EAGLES/MULTEXT
N[type=common gender=masculine number=singular case=n/a]
Pour des raisons d'harmonisation entre langues, certains attributs (tels que le cas) sont présents, mais ne s'appliquent pas à une catégorie donnée dans telle ou telle langue, ce que traduit la valeur n/a ("not applicable"). D'autres attributs s'appliquent à la catégorie dans la langue considérée, mais ne s'appliquent pas à certaines de ses sous-catégories. Par exemple pour les verbes français, le genre ne s'applique qu'au participe passé alors que la personne ne s'applique pas. On aura donc, par exemple pour la première personne de l'indicatif présent :
V[type=main mood=indicative tense=present
person=first number=singular gender=n/a]
et pour le participe passé féminin :
V[type=main mood=participle tense=past person=n/a
number=singular gender=feminine][10]
Une version prélimianire des catégories grammaticales, attributs et valeurs retenus pour le noyau commun du projet MULTEXT est décrite dans (Bel et al. 1995)[11]. Voir la figure 5 ci-après, par exemple, pour les noms et les verbes. On notera un certain nombre de compromis et de décisions arbitraires. Ainsi, le conditionnel qui est classé dans les modes (à la façon de la grammaire traditionnelle) pourrait peut-être, d'une façon plus linguistiquement correcte, être classé dans les temps, mais une traduction immédiate est possible entre l'une et l'autre convention, et la question ne semble pas valoir une controverse.
N[type=common gender=masculine number=singular] | Ncms- |
V[type=main mood=indicative tense=present person=first number=singular] | Vmip1s-- |
Cette représentation compacte permet également de représenter la sous-spécification par des expressions régulières (voir ci-après).
Noun
Pos. | Attribute | Value | Code |
---|---|---|---|
1 | Type | common | c |
proper | p | ||
2 | Gender | masculine | m |
feminine | f | ||
neuter | n | ||
3 | Number | singular | s |
plural | p | ||
4 | Case | nominative | n |
genitive | g | ||
dative | d | ||
accusative | a |
Verb
Pos. | Attribute | Value | Code |
---|---|---|---|
1 | Type | main | m |
auxiliary | a | ||
modal | o | ||
2 | Mood/Form | indicative | i |
subjunctive | s | ||
imperative | m | ||
conditional | c | ||
infinitive | n | ||
participle | p | ||
gerund | g | ||
supine | s | ||
base | b | ||
3 | Tense | present | p |
imperfect | i | ||
future | f | ||
past | s | ||
4 | Person | first | 1 |
second | 2 | ||
third | 3 | ||
5 | Number | singular | s |
plural | p | ||
6 | Gender | masculine | m |
feminine | f | ||
neuter | n |
Figure 5 : Tables attribut-valeurs pour les noms et les verbes
Ainsi, le français est sous-spécifié en ce qui concerne le trait "cas" pour les noms, qui est inapplicable; pour les verbes, le trait "genre" n'est pas applicable pour les formes conjuguées; etc. Par contre, à l'intérieur du système possible pour le français, on peut prendre la décision de ne pas représenter le mode et le temps des verbes (informations notoirement difficiles à désambiguïser automatiquement) dans un jeu d'étiquettes donné. Dans ce cas, le système particulier d'un jeu d'étiquettes est sous-spécifié par rapport au système maximal possible pour le français. Par exemple, dans la figure 6, l'étiquette VM1S est sous-spécifiée en ce sens qu'elle ignore le mode et le temps, et elle correspond à sept descriptions lexicales attestées dans le lexique.
Descr. lex. | Etiquette | Exemple |
---|---|---|
Vmip1s- | VM1S | viens |
Vmii1s- | VM1S | venais |
Vmif1s- | VM1S | viendrai |
Vmsp1s- | VM1S | vienne |
Vmsi1s- | VM1S | vinsse |
Vmcp1s- | VM1S | viendrais |
Vmis1s- | VM1S | vins |
Figure 6 : Sous-spécification des étiquettes
Le principe applicatif permet de définir de façon formelle les étiquettes utilisées. Par exemple, l'étiquette VM1S de l'exemple précédent se définira comme
V[type=main mood=any tense=any person=first number=singular]
où la valeur any représente la disjonction de toutes les valeurs possibles pour un attribut donné[12].
Nous proposons de représenter de façon compacte la sous-spécification par des expressions régulières, à l'aide des opérateurs suivants :
Vmi.2s- | Verbe principal, indicatif, 2ème personne du singulier |
---|
(Ncf.-|Vmip2s- ) | Nom commun féminin ou Verbe principal, indicatif, 2ème personne du singulier (par exemple "souris"). |
Vm[isc].2s- | Verbe principal, indicatif, subjonctif ou conditionnel, 2ème personne du singulier |
Vm[^s]p2s- | Verbe principal, mode non subjonctif, présent, 2ème personne du singulier |
Avec ces conventions, l'étiquette VM1S mentionnée plus haut peut se définir par l'expression régulière :
ou, de façon équivalente (pour le français) :
Le lecteur aura noté que la définition des étiquettes n'est possible que si le principe applicatif est respecté. Ainsi, dans le cas ci-dessous
France | N[type=proper gender=feminine number=singular] | XPAYS |
Marie | N[type=proper gender=feminine number=singular] | XPERS |
le principe applicatif n'est pas respecté, puisque la même description lexicale correspond à des étiquettes différentes selon l'entrée lexicale.
Si les utilisateurs souhaitent opérer de telles distinctions, il faut qu'ils restaurent le principe applicatif en ajoutant des attributs adéquats dans la couche privée du modèle (qui correspondront à des caractères supplémentaire en fin de chaîne dans la représentation compacte). Ainsi, par exemple, un attribut "sous-type" permet de désambiguïser les noms propres, et l'on pourra définir les étiquettes XPAYS et XPERS comme :
XPAYS | N[type=proper subtype=country] |
XPERS | N[type=proper subtype=person] |