Intégration de la construction de la terminologie de domaines spécialisés
dans un processus global de fouille de textes
Mathieu Roche
Résumé
L'extraction d'information à partir de textes spécialisés exige l'application d'un processus complet de fouille de textes. Une des étapes de ce processus consiste à extraire les termes dans les textes. Les termes sont définis comme des groupes de mots représentant des traces linguistiques de concepts. Le terme "data mining" évoque, par exemple, le concept de "technique informatique".
La tâche d'acquisition de la terminologie consiste, dans un premier temps, à
extraire les mots voisins vérifiant des patrons syntaxiques simples tels que
Nom-Nom, Adjectif-Nom, etc. Une des spécificités de notre algorithme est son
aspect itératif utilisé pour construire des termes complexes. Par exemple, si
lors de la première itération le terme "data mining" de type Nom-Nom est
extrait, à l'étape suivante le terme "data-mining application" peut être obtenu.
De plus, avec EXIT (EXtraction Itérative de la Terminologie) l'expert est placé
au centre du processus d'extraction de la terminologie et il peut intervenir
tout au long du processus. Outre l'aspect itératif du système mis en place, de
nombreux paramètres ont été ajoutés. Un des paramètres permet d'utiliser
différents critères statistiques pour classer les termes selon leur pertinence
par rapport à une tâche à réaliser. Notre approche a été validée à partir de
quatre corpus de langues, de tailles et de domaines de spécialité différents.
Enfin, une méthode fondée sur un processus d'apprentissage supervisé est proposée afin d'améliorer la qualité de la terminologie extraite.