Projet ECD

Encadrement : M. Roche, A. Laurent, S. Bringay, P. Poncelet

Le but de ce projet consiste à mettre en oeuvre et évaluer une méthode de classification de tweets. Les progammes développés (vectorisation des données textuelles) pourront être développés en Perl, Python, PHP, Java ou autres.

Première étape : constitution du corpus
Dans un premier temps, un corpus devra être constitué. Nous proposons d'acquérir un corpus de tweets sur 3 à 5 thèmes déterminés (les sujets "faisant du buz"...). L'aquisition pourra se faire manuellement où en utilisant les API de twitter (http://dev.twitter.com/).

Deuxième étape : mise en oeuvre d'un algorithme de classification
La seconde étape consistera à représenter les données textuelles sous forme vectorielle (approche dite de Salton) afin d'appliquer les algorithmes de fouille de données. La suite du travail consistera à utiliser Weka et évaluer rigoureusement les résulats de classification. Rappelons que de nombreuses approches d'apprentissage peuvent alors être utilisées pour la classification de textes :

K plus proches voisins

Arbres de décisions

Naïve Bayes

Réseaux de neurones

Machines à support de vecteurs

Troisième étape : prise en compte d'informations linguistiques
Le but ici est d'utiliser vos textes avec différentes informations :

Textes bruts.

Textes lemmatisés.

Textes lemmatisés avec analyse syntaxique.

Pour obtenir de telles connaissances, vous pouvez utiliser l'analyseur syntaxique Sygmart (pour les textes en français) également vu en cours.

Une analyse complète de la qualité de la classification selon les différents cas pourra être proposée.

Les étudiants pourront également s'intéresser à d'autres types de connaissances linguistiques (par exemple, la terminologie), sémantiques, etc. Dans ce projet, différents critères peuvent aussi être étudiés (paramètre K de l'algorithme des KPPV), élagage, normalisation du type tf*idf, etc. Bien entendu, tous ces critères ne pourront être étudiés dans le cadre de ce projet. Il est donc préférable que chaque groupe étudie des aspects précis en y apportant une évaluation rigoureuse et une analyse approfondie.