Le traitement automatique des langues
au service de la terminologie
[1]

Eric Gaussier
Xerox Research Centre Europe
 

1. Introduction

Le problème de la constitution de ressources est au cœur de l'activité terminologique. Si la notion de "terme", qui fait appel à celle de concept et se fonde souvent sur un acte de référence particulier, semble peu se prêter à un traitement informatique, un certain nombre d'outils visant à extraire les termes d'un corpus ont vu le jour. Ces outils, qui reposent très souvent sur un traitement linguistique des textes à analyser, n'abordent pas en général le problème de la définition du terme, mais s'attachent plutôt à une caractérisation syntaxique de séquences pouvant relever de la terminologie. Par nature, donc, ils ne sauraient se substituer au terminologue. En revanche, ils peuvent constituer une aide précieuse à ce(tte) dernier(e) pour l'élaboration de ressources terminologiques. Nous allons présenter quelques-uns des principes généraux sur lesquels reposent les outils d'extraction de termes, en mettant l'accent sur leur relation au traitement automatique des langues.

L'utilisation cohérente de termes dans un document est également une activité pour laquelle divers outils ont été développés. Ici, la problématique est proche de celle rencontrée en indexation contrôlée, ou un expert, terminologue, documentaliste, rédacteur technique, doit indexer un document à partir d'un thésaurus ou d'une liste d'autorité. La question "qu'est-ce qu'un terme ?" ne se pose plus, le terme étant donné. La question qui nous intéresse est cette fois "l'utilisation de ce terme dans ce contexte est-elle autorisée ?", "autorisée" pouvant avoir des significations différentes. Nous allons aborder les différents problèmes posés par ces différentes significations et examiner les solutions qui sont ou peuvent être proposées.

 

2. Terme et mot

Terminologie et terminographie se sont longtemps inscrites dans une perspective onomasiologique, où à un monde conceptuel est associé de façon biunivoque un ensemble de termes. La tâche du terminographe consistait, et consiste encore dans bien des cas, à établir l'ensemble des concepts d'un domaine, à les classer, les hiérarchiser, et enfin à décrire les termes désignant ces concepts. Le terme était vu comme un symbole débarrassé de toute ambiguïté, pourvu d'un seul sens. Cette vision de la terminologie qui excluait toute homonymie et synonymie du champ d'étude s'opposait à la lexicologie dont l'objet d'étude, le mot, n'échappe ni aux polysémie, homonymie et synonymie, ni aux glissements de sens opérés, en cours d'usage, par les emplois métaphoriques.

Les théories terminologiques modernes rejettent la vision trop prescriptive de l'approche classique, et considèrent qu'un terme peut avoir autant de représentations linguistiques que de situations discursives dans lesquelles il est susceptible d'apparaître [2]. Cette volonté de réinsérer le terme dans un contexte linguistique, de l'étudier en partie à travers l'usage qui en est fait, implique l'acceptation du fait qu'un terme peut être polysémique, que l'homonymie et la synonymie ne sont plus absentes du domaine d'étude, et que le comportement du terme se rapproche en partie de celui du mot. Elle implique également le recours à des corpus et à des études in vivo du comportement des termes. Le recours aux corpus s'explique d'autant mieux que les banques terminologiques existantes sont bien souvent incomplètes et ne reflètent la structure d'un domaine qu'à un instant donné de son évolution. À l'extrême, repérer une expression dont le statut terminologique n'est pas acquis, mais qui est susceptible de s'insérer dans un réseau terminologique et finalement de constituer un terme, est une préoccupation que l'on rencontre dans certains domaines tel la veille technologique, et qui passe par l'analyse de corpus.

Toutefois, même si terminologie et lexicologie s'intéressent toutes deux à des systèmes lexicaux, thématiques et structurés pour la terminologie, dérivés du langage courant pour la lexicologie, ce qui les oppose en dernier recours est la nature de l'acte référentiel associé aux unités qui les occupent. Comme A. Rey le précise ([AR]) : " la terminologie ne s'intéresse aux signes qu'en tant qu'ils fonctionnent comme des noms, dénotant des objets, et comme des indicateurs de notion. Les systèmes terminologiques excluent tout signe linguistique dont la fonction de dénotation classificatrice ou de symbole conceptuel est nulle ou dérivée ". Cette délimitation de l'objet d'étude terminologique a des implications fortes sur les éléments lexicaux qui peuvent entrer dans la constitution d'un terme. Elle en a également sur le contexte linguistique dans lequel entre le terme. Mais, comme nous allons le voir, celui-ci, de par la difficulté des moyens à mettre en œuvre, est rarement pris en compte.

 

3. Outils d'extraction terminologique

Nous ne reviendrons pas ici sur la nécessité d'outils d'extraction terminologique, et de l'aide qu'ils fournissent au terminologue/terminographe dans l'analyse de corpus (pour une argumentation plus détaillée, on pourra se reporter à [DB,SK,SA,AC]). Il nous semble également acquis, dès lors qu'on s'intéresse à l'analyse de corpus, qu'il est nécessaire de mettre en jeu un certain nombre d'analyses linguistiques. Le traitement automatique des langues vise à développer des outils permettant d'analyser un ensemble de documents. Parmi les processus mis en jeu, il est généralement admis que la segmentation d'un texte en unités lexicales, la reconnaissance morphologique et l'étiquetage (affectation d'une étiquette grammaticale) de ces unités, constituent les premières étapes d'une chaîne de traitement linguistique. La suite naturelle de ces étapes, c'est-à-dire les étapes qu'il conviendrait de mettre en œuvre afin de parvenir à une analyse plus complète des textes, consiste bien sûr en une analyse syntaxique et sémantique des phrases, puis des textes dans leur ensemble en ce qu'ils s'inscrivent dans une structure de discours [3]. Il est important de rappeler ici les limites auxquelles sont confrontés les systèmes actuels de traitement automatique des langues. Ni l'analyse syntaxique, ni l'analyse sémantique n'ont atteint aujourd'hui un seuil de développement suffisamment important pour être utilisées dans des applications s'intéressant à des domaines variés. Du côté de l'analyse syntaxique, on assiste à un essor de techniques dites de pré-syntaxe, ou analyse syntaxique de surface (de l'anglais shallow-parser), qui répondent à l'exigence d'une couverture importante et d'une certaine robustesse. Toutefois, ces analyseurs ne fournissent pas une analyse syntaxique complète des phrases étudiées, et un certain nombre de problèmes, comme le rattachement prépositionnel, ne reçoivent souvent qu'une solution partielle. Il en va de même au niveau de l'analyse sémantique, où des techniques d'assignation du sens des mots en contexte peuvent d'ores et déjà être utilisées, mais où la construction d'une représentation du sens d'un énoncé n'a pas encore reçue de solution acceptable pour les systèmes actuels. Nous supposerons donc, suivant en cela l'état de l'art des outils de traitement automatique des langues pouvant être utilisés sur différents types de corpus, dans différents domaines, que les outils d'extraction terminologique intègrent les étapes de segmentation, reconnaissance morphologique et étiquetage, ou des étapes équivalentes, et ne reposent pas sur une analyse syntaxique et/ou sémantique.

De plus, nous nous intéressons ici à l'extraction de termes proprement dite, et non à l'extraction de liens entre termes ou encore à l'extraction de définition de termes. Plus précisément, nous allons passer en revue un certain nombre de principes qui sous-tendent les outils d'extraction terminologiques.

3.1. Le nom, une place centrale dans l'extraction de terminologie

Comme la citation d'A. Rey ci-dessus le montre, l'acte référentiel privilégié en terminologie est celui qu'on associe traditionnellement aux noms, et plus précisément aux noms de chose. Et, de fait, le nom, ou le syntagme nominal, occupe une place prépondérante en terminologie. Il suffit pour s'en convaincre d'ouvrir un dictionnaire terminologique : la grande majorité des entrées est constituée de syntagmes nominaux.

Cet état de fait se retrouve dans les outils d'extraction terminologique, où bien souvent les seuls candidats termes proposés par l'outil seront des syntagmes nominaux. Le syntagme est d'autant plus intéressant que le nom isolé dans la mesure où il permet de prendre en compte plus de critères que la seule appartenance catégorielle, voire l'appartenance catégorielle et le type de détermination (définie, indéfinie).

3.2. L'étude morphosyntaxique des termes

Il est presque devenu un lieu commun d'insister sur la forme particulière, et, pour la majorité des termes, très contrainte, du syntagme nominal formant un terme. Ainsi, en français, on sait que la majorité des termes complexes, i.e. à plus d'un élément, se rencontrent sous la forme N de N ou N à N, N désignant un nom. D'autres prépositions peuvent certes intervenir dans la structure d'un terme, mais leur apparition est alors conditionnée soit par un déverbal (essentiellement pour la préposition par), soit par un élément qui les sous-catégorise, ce contrôle étant exercé en français dans le contexte gauche de la préposition.

Il est alors assez naturel de s'appuyer sur un ensemble de règles décrivant les structures admissibles, en terme de catégories grammaticales, des termes. Ces structures constituent un critère supplémentaire pour l'identification des termes dans un corpus, et permettent ainsi, par rapport au seul critère catégoriel, d'obtenir un meilleur compromis entre rappel et précision. Il est de plus à noter que les structures constitutives des termes sont identiques à celles observées dans une partie des mots composés du français, la modification de telle ou telle structure étant plus ou moins tolérée suivant le degré de figement du composé. C'est dire que, même si le statut terminologique des unités extraites à partir de telles structures n'est pas nécessairement établi, elles conservent bien souvent un caractère d'unité lexicale justifiant leur extraction au sein d'une application donnée comme peut l'être la recherche d'information.

De ces observations découle le fait que la majorité des systèmes d'extraction, eu égard aux techniques de traitement du langage que l'on peut raisonnablement mettre en œuvre sur différents corpus, se concentrent sur l'ensemble des termes constitués par les syntagmes nominaux.

3.3. La fréquence comme élément de stabilisation d'une notion

Une unité ne peut acquérir le statut de terme que si le lien avec le concept qu'elle dénote est stable. Par stable, on entend généralement indépendant du contexte et partagé par une communauté de personnes. La stabilité du lien terme-concept ne s'établit que dans le temps, après l'utilisation et la reconnaissance de l'unité par différents acteurs d'un domaine [4]. De plus, une fois les critères morphosyntaxiques mis en place, il est nécessaire de préciser l'ensemble des candidats extraits. Ce problème se retrouve au niveau de la composition dans le lexique général. Ainsi A. Martinet, après avoir établi un ensemble de critères linguistiques permettant de juger du degré de figement d'une unité, se tourne vers des critères statistiques ([]) : " Des données statistiques peuvent probablement permettre de préciser à quel moment de l'évolution de la langue un complexe atteint une fréquence comparable à celle d'unités simples du même type, ce qui va automatiquement dissuader les usagers de restituer une autonomie à ses composants ". De là s'ensuit une série de travaux cherchant à établir la stabilité d'une notion à partir du nombre d'occurrences de l'unité qui la caractérise, ou de la distribution, dans le lexique des termes, des éléments qui composent cette unité.

Toutefois, pour être menée à bien, la première partie de ce travail doit s'inscrire dans une perspective diachronique, et tenter de retracer l'usage d'une unité à travers les différents documents dans lesquels cette unité est employée, depuis sa première utilisation jusqu'à la situation actuelle. Cette tâche est loin d'être simple, et souvent impossible dans la mesure où l'on ne dispose pas de l'ensemble des documents nécessaires.

Il est cependant possible, comme le montrent certains travaux (cf. [BD]), de dégager un certain nombre de critères qui permettent de juger du dégré de figement d'une unité. Toutefois, appliqué à la lettre, ces critères ne retiennent que peu de termes, leur capacité de filtrage terminologique n'étant efficace que sur un sous-espace de l'espace des termes.

3.4. La reconnaissance des variantes

Comme nous l'avons souligné plus haut, une notion peut apparaître sous diverses représentations linguistiques. Au côté du terme, ou de sa forme privilégiée, existent un certain nombre de variantes, de type morphologique, syntaxique ou sémantique. Les variantes de type morphologique sont reconnues par l'utilisation de dictionnaires et d'analyseurs morphologiques. La reconnaissance des variantes syntaxiques passe en général par un processus analogue à celui utilisé pour l'extraction de termes, à ceci près qu'il est nécessaire cette fois de relier les deux unités extraites. Postuler la prépondérance d'une unité sur l'autre est un autre problème, en général laissé à l'utilisateur. La reconnaissance des variantes sémantiques fait également appel à des ressources et outils spécifiques à une analyse sémantique. Encore une fois, il s'agit ici de relier deux (ou plusieurs) unités, problème différent de celui de l'extraction. L'utilisation de ressources sémantiques qui est faite dans ce contexte est plus restreinte et plus contrôlée que celle que l'on pourrait mettre en œuvre pour l'extraction terminologique proprement dite (pour une étude approfondie du problème de la variation terminologique et de ses solutions informatiques, on pourra se reporter à [CJ]).

3.5. Quelles évolutions attendre du traitement automatique des langues ?

Comme nous l'avons vu, la dimension sémantique est en grande partie absente du processus d'extraction automatique de termes. Ceci s'explique par la difficulté de mettre en œuvre des traitements sémantiques sur des domaines variés, mais aussi, et peut-être principalement, par la difficulté de préciser les primitives sémantiques et leur combinaison dans le processus de création terminologique. Il va presque de soi qu'une telle tâche ne peut être accomplie que domaine par domaine, et que les processus qui en découlent pour l'extraction terminologique ne seront intégrés dans des systèmes que peu à peu.

Il en va de même pour l'analyse du discours et l'extraction de chaînes de référence. C'est seulement par ce type d'analyse que l'on peut prendre en compte le contexte linguistique dans lequel s'insère une unité, et ainsi essayer de déterminer l'acte de référence associé. Toutefois, les connaissances linguistiques et cognitives à mettre en jeu sont à la fois considérables et difficiles à formaliser. Il faut très certainement s'attendre à une avancée des systèmes dans ce domaine, mais à petits pas.

 

4. Outils de contrôle terminologique

Comme nous l'avons déjà évoqué, le problème du contrôle teminologique se pose comme un problème de reconnaissance, en usage, d'éléments d'une base de connaissance. C'est la forme que prend une notion dans un environnement linguistique donné qu'il s'agit ici de caractériser. Ce problème est d'autant plus intéressant qu'il n'est pas sans lien avec celui de la levée d'ambiguïtés dans une phrase. Ainsi, lorsqu'une unité apparaît dans un document, avant de renvoyer à une notion, elle peut renvoyer à plusieurs unités concurrentes, qui, elles, dénoteront de façon non ambiguë un concept du domaine. Ce cas est illustré par les phénomènes d'ellipse qu'on rencontre dans la quasi-totalité des documents techniques.

Comme pour l'extraction de termes, on touche là aux limites des traitements que l'on peut mettre en œuvre, et la majorité des systèmes de contrôle terminologique n'intègrent pas de module de désambiguation des variantes terminologiques. La majeure partie des traitements effectués se situe au niveau de la reconnaissance de variantes, de type morphologique, syntaxique, et parfois sémantique. Ces variantes sont toutefois traitées de façon locale, c'est-à-dire que le contexte dans lequel s'insère la variante supposée est peu souvent pris en compte. On admet alors une hypothèse de réalisation d'une notion fondée uniquement sur une proximité (morphologique, syntaxique et/ou sémantique) avec une forme privilégiée. En ciblant toutefois les opérations (dérivations, modification, lien sémantique) qui permettent de passer d'une forme à une autre, l'analyse locale fonctionne bien et fournit un ensemble de variantes avec un bon compromis rappel-précision. Encore une fois, on peut s'attendre à une évolution des systèmes actuels vers la prise en compte de phénomènes plus complexes, et notamment des ellipses via la reconnaissance de chaînes de référence. Mais, comme dans beaucoup de cas, cette évolution se fera très certainement domaine par domaine, et ne sera intégré que peu à peu dans les systèmes de contrôle terminologique.

Signalons pour terminer l'alternative souvent mentionnée au contrôle terminologique, à savoir l'intervention, aux moyens d'outils appropriés, au moment de la rédaction du document. Dans cette approche, les problèmes posés par l'ellipse peuvent être résolus par une interaction entre l'homme et la machine.

 

5. Conclusion

Nous avons présenté dans cet article un certain nombre de principes sur lesquels reposent les outils d'extraction et de contrôle terminologique. Nous nous sommes volontairement situés à un niveau général, sans décrire de façon détaillée tel ou tel outil.

 

Références

1. S. Ananiadou (1994), " A methodology for automatic term recogntion ", Proceedings of the 15th International Conference on Computational Linguistics, COLING-94, Kyoto, Japon

2. D. Bourigault (1994), LEXTER, un logiciel d'EXtraction de TERminologie. Applications à l'acquisition des connaissances à partir de textes, Thèse de doctorat, EHESS

3. A. Condamines, J. Rebeyrolle (1998), " CTKB : A Corpus-Based Approach to a Terminological Knowledge Base ", Proceedings of Computerm'98, First Workshop on Computational Terminology, COLING-ACL'98, Montréal, Québec, Canada

4. B. Daille (1994), Approche mixte pour l'extraction de terminologie : statistique lexicale et filtres linguistiques, Thèse de doctorat, Université Paris 7

5. G. Gross (1988), " Degré de figement des noms composés ", Langages, vol. 90, Larousse

6. G. Gross, R. Jung, M. Mathieu-Colas (1987), Noms composés, Rapport technique du Programme de recherches coordonnées " Informatique Linguistique ", CNRS, Paris

7. C. Jacquemin (1997), Variation terminologique : reconnaissance et acquisition automatique de termes et de leurs variantes en corpus, Habilitation à diriger des recherches, IRIN, Université de Nantes

8. B. Nkwenti-Azeh (1992), Positional and combinational chracteristics of Satellite Communication Terms, Rapport technique, CCL-UMIST

9. A. Rey (1992), La terminologie - Noms et notions, Que sais-je ?, Presses universitaires de France, 2ème édition

10. J.C. Sager (1990), A practical Course in Terminology Processing, J. Benjamins Publishing Company

11. Terminology - Applications in Interdisciplinary Communication, H.B. Sonneveld and K.L. Loening Editors, J. Benjamins Publishing Company, 1993


[1] Le présent article se veut essentiellement une introduction aux problèmes informatiques posés par l'extraction et le contrôle terminologique. Le lecteur n'y trouvera pas de description détaillée de tel ou tel système, mais pourra se familiariser avec la (difficulté de la) tâche à laquelle sont confrontés les développeurs de systèmes d'extraction et de contrôle terminologique.


retour

[2] L'acceptation de variantes terminologiques, i .e. du fait qu'un concept peut s'exprimer sous diverses formes, ne remet pas nécessairement en cause la relation biunivoque terme-concept de l'approche onomasiologique. Ce fait est reflété dans bon nombre de thésaurus où une forme privilégiée est préférée aux autres et sert de lien avec le concept.


retour

[3] La chaîne proposée est celle sur laquelle repose la majorité des systèmes implantés à grande échelle, i.e. avec une couverture importante. Elle repose cependant sur un principe implicite de compositionnalité, qui ne constitue au mieux qu'une approximation des phénomènes en jeu.


retour

[4] Ces remarques doivent être nuancées par la provenance, ou la source, de l'unité susceptible de devenir un terme. L'importance d'un acteur dans un domaine peut suffire à imposer un nouveau terme. Il en va de même du média utilisé dans la transmission du savoir, qui a un effet presque directement proportionnel à l'audience qu'il touche. La télévision est un exemple prototypique combinant une source créditée de vérité absolue et un média à large audience.


retour

 

_retour à la page principale_