L'appariement : quels problèmes?

Fathi DEBILI
CNRS - idl
21, rue Boris Vildé - 92260 Fontenay aux Roses - France
Tél.: (33.1) 43 50 54 01
Courrier électronique : debili@idl.msh-paris.fr

Résumé

Dans la perspective de la construction automatique ou interactive de dictionnaires de transfert d'expressions bilingues, ou encore monolingues, il s'agirait alors de dictionnaires d'expressions synonymiques, nous abordons différents problèmes que pose l'appariement de paires de textes bilingues ou monolingues. Nonobstant les résultats exhibés au plan international, nous montrons, d'une façon générale, que le problème de l'appariement est entièrement ouvert, puisque, au delà, il ne pose rien de moins que le problème de la reconnaissance de la traduction ou de la paraphrase, où ce qui est recherché est non pas la production ou synthèse d'un deuxième texte étant donné le premier, mais la réponse à la question : étant donnés deux textes, sont-ils ou non traduction ou paraphrase l'un de l'autre?
Nos expérimentations, nullement décrites dans ce résumé, portent, pour le bilingue, sur les couples de langues français-anglais, français-arabe, et pour le monolingue, sur le français.
Les problèmes que pose l'appariement de paires de textes bilingues ou monolingues se situent à plusieurs niveaux. D'abord au niveau des unités que l'on souhaite apparier : les paragraphes, les phrases, les mots, les expressions, ou même les morphèmes. On tombe ici sur le problème classique que posent la définition et la délimitation automatique de ces unités. Ensuite au niveau de l'appariement lui-même : il n'y a pas correspondance biunivoque, loin s'en faut. A une unité il peut en correspondre plusieurs, parfois aucune. Dans d'autres cas, ce sont à la fois plusieurs unités de part et d'autre qu'il faut apparier ensemble. A cela s'ajoutent les inévitables interversions. Enfin au niveau algorithmique : quelles connaissances et comment les faire intervenir pour apparier ? Les approches sont diverses, mais elles font toutes intervenir des connaissances de deux types pour l'essentiel : formelles et structurales d'une part, lexicales et sémantiques d'autre part.
D'autres difficultés se situent au niveau de l'évaluation des performances des algorithmes d'appariement. Plusieurs protocoles peuvent être envisagés, mais quel que soit le protocole retenu, la difficulté essentielle se rencontre lorsque l'on essaie de porter un jugement sur la validité des appariements construits. On constate en effet que, par exemple, lorsque l'on soumet à plusieurs personnes une même paire de textes, et que l'on demande à ces personnes d'en effectuer l'appariement à la main, alors les résultats obtenus ne sont pas toujours les mêmes, notamment si l'appariement dont il s'agit est celui des mots. Autrement dit, l'opération d'appariement manuel ne semble pas être une opération facilement reproductible.
Comment négocier alors le problème de la reproductibilité? Doit-on essayer de l'atteindre dans la perspective de l'appariement manuel des mots et des expressions notamment, ou doit-on engendrer au plan informatique plusieurs appariements potentiels, tous acceptables, pour simuler finalement la non reproductibilité observée au plan manuel? La non reproductibilité deviendrait ainsi une propriété recherchée sur le plan informatique. Est-ce là une perspective originale et opératoire? Si oui, alors comment y parvenir de façon non triviale. Dans le cas présent, comment produire automatiquement plusieurs appariements de mots ou d'expressions concurrents ou cooccurrents, et cependant tous acceptables au regard de notre jugement subjectif mais néanmoins consensuel? Comment ensuite évaluer un tel programme? Le problème se pose sous un nouveau jour. Faut-il désormais construire plusieurs référentiels de façon manuelle? Est-il envisageable de tous les construire? Et dans tous les cas, comment comparer résultats automatiques et résultats manuels puisque sans doute l'identité stricte ne sera plus recherchée ici. Les réponses ne sont nullement claires pour l'instant.
Si par contre l'on doit rechercher la reproductibilité de l'expérience linguistique manuelle pour faire qu'il n'y ait qu'un seul référentiel pour l'évaluation, alors dans quelle mesure peut-on définir les critères et les tests linguistiques qui rendraient cette reproductibilité possible? A l'évidence, ils restent à élaborer.
Le calcul automatique des performances pose lui aussi problème. En effet, comment, au plan informatique, comparer entre eux deux appariements différents, c'est-à-dire deux paires de textes différemment appariés. En fait, le problème se pose surtout lorsque la paire traitée automatiquement n'est pas découpée de la même façon que la paire qui fait référence, c'est-à-dire celle dont l'appariement a été validé manuellement.
Enfin, l'évaluation des performances d'un programme d'appariement doit-elle être exprimée en termes d'erreurs, ou bien, ainsi que nous le pensons, en termes de bruit et de silence. Dans ce dernier cas, et s'agissant de comparer différents programmes d'appariement, comment comparer entre eux des couples de taux (bruit, silence)? Car à l'exercice on s'aperçoit qu'à l'évidence il y a erreur et erreur, silence et silence. Autrement dit, ne doit-on pas introduire quelque notion de qualité dans la mesure de l'erreur, ou du bruit et du silence, et si oui, comment?

This paper is also available in rtf format