Stage: Fouille de documents XML

Fouille de documents XML

NIVEAU :

ORGANISME : INRIA Rocquencourt

ADRESSE : équipe AxIS,

ENCADREUR : Anne-Marie Vercoustre

01 39 63 52 49

Sujet : La quantité d'information accessible aujourd'hui est telle que les outils, même sophistiqués, utilisés pour rechercher l'information dans les documents et pages Web ne suffisent plus: il faut maintenant pouvoir "découvrir" une information non explicitement contenue dans ces documents, afin de présenter une vue synthétique de grande quantité d'information. C'est précisemment l'objectif de ce qu'on appelle la fouille de documents. Celle-ci utilise différentes techniques, extraire une information structurée dans du texte libre, regrouper les documents dans des classes existantes ou émergeantes,afin d'aggréger ou de synthetiser l'information contenue dans une large collection..

Nous nous intéressons plus particuliérement aux techniques de classement et classification de documents XML. Plus precisement, le classement associe des documents à des catégories (ou classes) prédéfinies alors que la classification (clustering) a pour but d'identifier des classes non connue à l'avance. Pour celà on s'appuie traditionnellement sur des modèles statistiques qui manipulent des ensembles de mots. Certaines méthodes de classification réduisent donc les documents XML à leur partie purement textuelle, sans prendre avantage de la structure XML qui pourtant véhicule une information riche: le même mot n'a pas forcémentle même impact ou le même sens dans un titre et dans une autre partie du document.
Les approches récentes développent des modèles et des méthodes de classification prenant en compte à la fois le contenu des documents et leur structure, ou la structure seule. Dans ce dernier cas, l'objectif est de regrouper en clusters les documents présentant une structure similaire, et de generer pour chaque cluster une structure generique (DTD) représentant au mieux ce cluster.

L'objectif du stage est de développer une nouvelle méthode de classification basée sur la structure et de la comparer avec une méthode existante. Ce travail sera fait dans le contexte du groupe de travail international INEX (Initiative for the Evaluation of XML retrieval).
Le travail comportera les étapes suivantes (dépendant de la longueur du stage):

Familiarisation avec la collection de documents INEX, prétraitements utilisant des outils standards (XML parser, XSLT)
Etude bibliographique
Implementation du nouvel algorithme
Implementation d'un algorithme standard
Evaluation
Ecriture d'un rapport/publication

Bibliographie

Clustering using content and structure

"Expériences de classification de documents XML homogènes", Thierry Despeyroux, Yves Lechevallier, Brigitte Trousse, Anne-Marie Vercoustre, EGC 2005, Paris.
"A classifier for semi-structure documents", Jeonghee Yi and Neel Dundaresan, KDD 2000.
"Structured Multimedia Document Classification", Ludovic Denoyer, Jean-Noel Vittaut, Patrick Gallinari, Sylvie Brunessaux, Stephan Brunessaux, DocEng’03.
"A semi-structured document model for text mining", Yang Jianwu, Chen Xiaoou, Journal of Computer Science and Technology archive, Volume 17(5),603-610, May 2002.

XML Clustering using structure

"XRules: An Effective Structural Classifier for XML Data", Mohammed J. Zaki, Charu C. Aggarwal,,SIGKDD 03
" Distance-based Clustering of XML Documents"., Francesco De Francesca, Gianluca Gordano, Riccardo Ortale, and Andrea Tagarelli,
"An Efficient and Scalable Algorithm for Clustering XML Documents by Structure", Wang Lian, David Wai-lok Cheung, in IEEE Transactions on Knowledge and Data Engineering, 2004
"TreeFinder: a First Step towards XML Data Mining", Alexandre Termier, Marie-Christine Rousset, Michèle Sebag, ICMD, 2002.
"Clustering XML Documents using Structural Summaries", Theodore Dalamagas, T. Cheng, K. Winkel, T. Sellis, In Proc. of ClustWeb - International Workshop on Clustering Information over the Web in conjunction with EDBT 04, Crete, Greece, 2004