Intégration de la construction de la terminologie de domaines spécialisés
dans un processus global de fouille de textes

Mathieu Roche


Résumé

L'extraction d'information à partir de textes spécialisés exige l'application d'un processus complet de fouille de textes. Une des étapes de ce processus consiste à extraire les termes dans les textes. Les termes sont définis comme des groupes de mots représentant des traces linguistiques de concepts. Le terme "data mining" évoque, par exemple, le concept de "technique informatique".
La tâche d'acquisition de la terminologie consiste, dans un premier temps, à extraire les mots voisins vérifiant des patrons syntaxiques simples tels que Nom-Nom, Adjectif-Nom, etc. Une des spécificités de notre algorithme est son aspect itératif utilisé pour construire des termes complexes. Par exemple, si lors de la première itération le terme "data mining" de type Nom-Nom est extrait, à l'étape suivante le terme "data-mining application" peut être obtenu. De plus, avec EXIT (EXtraction Itérative de la Terminologie) l'expert est placé au centre du processus d'extraction de la terminologie et il peut intervenir tout au long du processus. Outre l'aspect itératif du système mis en place, de nombreux paramètres ont été ajoutés. Un des paramètres permet d'utiliser différents critères statistiques pour classer les termes selon leur pertinence par rapport à une tâche à réaliser. Notre approche a été validée à partir de quatre corpus de langues, de tailles et de domaines de spécialité différents.
Enfin, une méthode fondée sur un processus d'apprentissage supervisé est proposée afin d'améliorer la qualité de la terminologie extraite.