Ne serions-nous pas en train d'accomplir un nouveau saut technologique
en matière de dictionnaires machines? Nous sommes tentés de
le soutenir. En simplifiant, nous pourrions dire qu'il y a eu jusqu'ici
trois périodes, et que nous sommes maintenant à l'aube d'une
quatrième.
La première, selon Bernard Vauquois , irait jusqu'aux environs
de 1961-63. Jusque là, les dictionnaires étaient constitués
de listes de formes : on y répertoriait aussi bien les formes canoniques
que les formes fléchies (conjuguées, pluriels, etc.). L'analyse
morphologique était réduite à sa plus simple expression
: juste un accès. Mais on avait quelques problèmes. La mémoire
d'abord, la saisie forcément manuelle ensuite.
Commence alors une seconde période. On veut gagner en place
et en couverture d'analyse sans payer le très lourd tribu de la saisie
manuelle. L'idée est de recourir à non plus un, mais à
plusieurs petits dictionnaires. De préfixes, suffixes, radicaux,
etc.. La saisie s'en trouve allégée. La couverture augmentée.
La place minimisée. On s'accommode du prix à payer : la confection
de grammaires concaténatives puisqu'il faut désormais lutter
contre les décompositions illicites que la combinatoire produit.
Même si ces grammaires s'avèrent inachevables en fait, cette
approche s'impose pratiquement sans partage jusqu'à 1977-79.
Car, les progrès technologiques aidant, on s'aperçoit que
les deux griefs majeurs que l'on pouvait opposer aux dictionnaires de formes
tombent. La mémoire disponible, est désormais accessible puisque
moins coûteuse. La saisie manuelle ne s'impose plus puisque, sachant
analyser, on sait aussi engendrer de façon automatique, sans autre
investissement. Alors pourquoi ne pas réhabiliter les dictionnaires
répertoriant toutes les formes, canoniques et fléchies. Les
avantages sont là. Simplicité d'abord, avec une grammaire
d'analyse largement allégée, et dès lors une algorithmique
aérée. Ensuite et surtout, possibilité de répondre
à certaines demandes. Des problématiques et applications comme
la correction des graphies fautives ou la reconnaissance automatique de
la parole semblent en effet requérir de tels dictionnaires. C'est
le retour en force des dictionnaires de formes et le début d'une
troisième période qui s'installe ainsi jusqu'à
ce jour. Ce retour n'évince cependant pas la deuxième approche.
On assiste plutôt à une cohabitation tant il est vrai que de
fait les deux approches se complètent. On ne peut tout mettre dans
les dictionnaires, on ne peut tout décrire par la grammaire. La cohabitation
la plus achevée semble trouver sa réalisation dans les approches
morphologiques dites à deux niveaux , où synthèse et
analyse sont rassemblées.
C'est dans ce contexte général que nous présenterons
nos réalisations informatiques sur la morphologie de l'arabe voyellé
(le non voyellé étant obtenu par une simple dévoyellation).
Nous montrerons, démonstrations à l'appui, comment nous nous
y sommes pris pour construire de façon automatique ou interactive
différents dictionnaires : de lemmes (75000 entrées environ),
de formes (750000 entrées environ), et aussi de formes agglutinées
(40 millions d'entrées environ).
Ne pouvant éviter la surgénération qu'au prix d'un
investissement en grammaire qui finit par se confondre en partie avec le
lexique recherché, nous montrons la nécessité pratique
d'une synthèse assistée et cumulative. Ce qui nous conduit
à poser le problème d'une ergonomie linguistique où
ce qui est recherché est le confort et la minimisation de l'intervention
manuelle.
C'est parce que nous passons comme on le voit de quelques centaines de milliers
d'entrées à quelques dizaines de millions d'entrées
que nous défendrons l'idée selon laquelle nous sommes là
au début d'une quatrième période. Le critère
que nous avançons pour définir ces époques est donc
simple : il est lié au volume. Faut-il subodorer une cinquième
période avec l'avènement des lexiques et des mémoires
de traduction, où cette fois l'entrée peut être un syntagme,
voire une phrase? Les ordres de grandeur sont à l'évidence
bien plus importants. Alors oui, sans doute. Mais cette ascension vers le
tout lexique ne doit nullement occulter ou laisser croire qu'il n'y aura
point de problèmes algorithmiques. En particulier, avec le nombre
apparaît la limite de l'intervention manuelle et la nécessaire
réapparition de la grammaire pour une meilleure synthèse.
De même que nous ne pouvons croire à une grammaire de reconnaissance
achevée, nous ne pouvons croire à une grammaire de synthèse
achevée. Il y paradoxe Cet exposé peut laisser croire
Mais on veut aussi traiter les formes agglutinées. Le problème
se pose à nouveau : dictionnaires ou grammaires. Là aussi,
on commence d'abord par la grammaire. Mais ayant réalisé en
partie de telles grammaires, orientées vers l'analyse dans un premier
temps, on se demande très vite si l'on ne pourrait pas, en amendant
éventuellement ces grammaires pour les orienter vers la synthèse,
recommencer, comme par le passé, pour engendrer les formes et
Mais on veut traiter aussi les expressions, et non pas seulement les figées
dont on a admis qu'elles pouvaient être traitées comme les
formes simples. Non, les expressions nominales et verbales qui introduisent
un ordre de grandeur tout à fait nouveau.
Le problème se pose à nouveau : dictionnaires ou grammaires.
Là aussi, on commence d'abord par la grammaire. Quête inachevée.
Alors pourquoi pas des dictionnaires d'expressions
Avec l'appréhension
Pourtant, pour appréhender encore mieux les d'autres applications,
et toujours pour aller vers moins de grammaires, La quatrième période
pourrait se caractériser par la venue
Nous pensons que l'on peut maintenant ouvrir les vannes complètement.
Ces périodes accompagnent en fait les progrès accomplis sur
le plan technologiques : support