Projet "Extraction de Connaissances dans les Données" (Master IFPRU et IC) - 2010/2011

Classification de tweets


Encadrement : M. Roche, A. Laurent, S. Bringay, P. Poncelet

Le but de ce projet consiste à mettre en oeuvre et évaluer une méthode de classification de tweets. Les progammes développés (vectorisation des données textuelles) pourront être développés en Perl, Python, PHP, Java ou autres.

Première étape : constitution du corpus
Dans un premier temps, un corpus devra être constitué. Nous proposons d'acquérir un corpus de tweets sur 3 à 5 thèmes déterminés (les sujets "faisant du buz"...). L'aquisition pourra se faire manuellement où en utilisant les API de twitter (http://dev.twitter.com/).

Deuxième étape : mise en oeuvre d'un algorithme de classification
La seconde étape consistera à représenter les données textuelles sous forme vectorielle (approche dite de Salton) afin d'appliquer les algorithmes de fouille de données. La suite du travail consistera à utiliser Weka et évaluer rigoureusement les résulats de classification. Rappelons que de nombreuses approches d'apprentissage peuvent alors être utilisées pour la classification de textes :
  • K plus proches voisins
  • Arbres de décisions
  • Naïve Bayes
  • Réseaux de neurones
  • Machines à support de vecteurs

    Troisième étape : prise en compte d'informations linguistiques
    Le but ici est d'utiliser vos textes avec différentes informations :
  • Textes bruts.
  • Textes lemmatisés.
  • Textes lemmatisés avec analyse syntaxique.

    Pour obtenir de telles connaissances, vous pouvez utiliser l'analyseur syntaxique Sygmart (pour les textes en français) également vu en cours.

    Une analyse complète de la qualité de la classification selon les différents cas pourra être proposée.

    Les étudiants pourront également s'intéresser à d'autres types de connaissances linguistiques (par exemple, la terminologie), sémantiques, etc. Dans ce projet, différents critères peuvent aussi être étudiés (paramètre K de l'algorithme des KPPV), élagage, normalisation du type tf*idf, etc. Bien entendu, tous ces critères ne pourront être étudiés dans le cadre de ce projet. Il est donc préférable que chaque groupe étudie des aspects précis en y apportant une évaluation rigoureuse et une analyse approfondie.