Fouille de documents XML

NIVEAU :

ORGANISME : INRIA Rocquencourt

ADRESSE : équipe AxIS,

ENCADREUR : Anne-Marie Vercoustre

01 39 63 52 49

Anne-Marie.Vercoustre@inria.fr

Sujet : La quantité d'information accessible aujourd'hui est telle que les outils, même sophistiqués, utilisés pour rechercher l'information dans les documents et pages Web ne suffisent plus: il faut maintenant pouvoir "découvrir" une information non explicitement contenue dans ces documents, afin de présenter une vue synthétique de grande quantité d'information. C'est précisemment l'objectif de ce qu'on appelle la fouille de documents. Celle-ci utilise différentes techniques, extraire une information structurée dans du texte libre, regrouper les documents dans des classes existantes ou émergeantes,afin d'aggréger ou de synthetiser l'information contenue dans une large collection..

Nous nous intéressons plus particuliérement aux techniques de classement et classification de documents XML. Plus precisement, le classement associe des documents à des catégories (ou classes) prédéfinies alors que la classification (clustering) a pour but d'identifier des classes non connue à l'avance. Pour celà on s'appuie traditionnellement sur des modèles statistiques qui manipulent des ensembles de mots. Certaines méthodes de classification réduisent donc les documents XML à leur partie purement textuelle, sans prendre avantage de la structure XML qui pourtant véhicule une information riche: le même mot n'a pas forcémentle même impact ou le même sens dans un titre et dans une autre partie du document.
Les approches récentes développent des modèles et des méthodes de classification prenant en compte à la fois le contenu des documents et leur structure, ou la structure seule. Dans ce dernier cas, l'objectif est de regrouper en clusters les documents présentant une structure similaire, et de generer pour chaque cluster une structure generique (DTD) représentant au mieux ce cluster.

L'objectif du stage est de développer une nouvelle méthode de classification basée sur la structure et de la comparer avec une méthode existante. Ce travail sera fait dans le contexte du groupe de travail international INEX (Initiative for the Evaluation of XML retrieval).
Le travail comportera les étapes suivantes (dépendant de la longueur du stage):

Bibliographie

Clustering using content and structure

XML Clustering using structure