Chercheurs d'Avenir (2016-2018) Projet SONGES |
Contexte
De nombreux travaux s'intéressent à la mise en correspondance de bases de données (BD), dedonnées semi-structurées (par exemple, XML) et/ou d'ontologies. Dans le projet SONGES, nous nous intéressons à la mise en correspondance de données textuelles de nature très hétérogènes aussi bien syntaxiquement et sémantiquement. Concrètement, pour les chercheurs, une telle démarche peut se révéler cruciale pour mettre en relation des connaissances de nature différentes (par exemple, enquêtes vs. publications scientifiques). Cette mise en correspondance peut avoir plusieurs vertus comme la découverte de nouvelles connaissances, la fouille de données hétérogènes, la mise en relation de chercheurs, etc.
Science des données : des enjeux pratiques, pluridisciplinaires et scientifiques
Dans le cadre des stratégies scientifiques de valorisation des instituts de recherche appliqués (Cirad, Irstea, IRD, INRA, etc.), la capitalisation des données et leur ouverture (open data) devient un enjeu crucial. Par exemple, au Cirad, nous avons à notre disposition des données issues de sites d'étude depuis plus de 60 ans avec des territoires observés/instrumenté à travers de nombreux projets pluridisciplinaires (par exemple, le projet BVlac que nous explorons actuellement est composé de 330 Go de données très hétérogènes : enquêtes, atlas images et couches SIG, suivis de mesures sur des parcelles de cultures, publications scientifiques, littérature grise, etc.). La mise en relation de ces données est un problème éminemment difficile mais crucial. Par exemple, la description de processus agricoles décrits dans des articles de la littérature scientifique doit souvent être associée à des aspects économiques, géographiques et sociétaux (pratiques agricoles, gestion des réseaux de fermes, exportation des cultures, etc.) développés dans des documents d'enquêtes terrains et via des indicateurs économiques.
La prise en compte de l'hétérogénéité est donc cruciale et indispensable dans de nombreux projets de recherche. Certains de ces projets ont été initiés récemment dans un contexte pluridisciplinaire de collaborations thématiques :
• Aide à la décision et intelligence territoriale (collaboration avec des géographes)
• Système de veille en épidémiologie animale (collaboration avec des épidémiologistes)
• Analyse des réseaux sociaux (collaboration avec des linguistes)
La prise en compte de l'hétérogénéité est donc cruciale et indispensable dans de nombreux projets de recherche. Certains de ces projets ont été initiés récemment dans un contexte pluridisciplinaire de collaborations thématiques :
• Aide à la décision et intelligence territoriale (collaboration avec des géographes)
• Système de veille en épidémiologie animale (collaboration avec des épidémiologistes)
• Analyse des réseaux sociaux (collaboration avec des linguistes)
Références
• How to Deal with Heterogeneous Data? Roche M. In Proceedings of SIMBig (International Symposium on Information Management and Big Data), Extended abstract (Invited Speaker), p.19-20, 2015
• Extraction automatique des mots-clés à partir de publications scientifiques pour l'indexation et l'ouverture des données en agronomie. Roche M., Fortuno S., Lossio-Ventura J.A., Akli A., Belkebir S., Lounis T., Toure S. Cahiers Agricultures. Volume 24, numéro 5, p.313-320, 2015