NIVEAU :
ORGANISME : INRIA Rocquencourt
ADRESSE : équipe AxIS,
ENCADREUR : Anne-Marie Vercoustre
01 39 63 52 49
Anne-Marie.Vercoustre@inria.fr
Sujet : La quantité d'information accessible aujourd'hui est telle que les outils, même sophistiqués, utilisés pour rechercher l'information dans les documents et pages Web ne suffisent plus: il faut maintenant pouvoir "découvrir" une information non explicitement contenue dans ces documents, afin de présenter une vue synthétique de grande quantité d'information. C'est précisemment l'objectif de ce qu'on appelle la fouille de documents. Celle-ci utilise différentes techniques, extraire une information structurée dans du texte libre, regrouper les documents dans des classes existantes ou émergeantes,afin d'aggréger ou de synthetiser l'information contenue dans une large collection..
Nous nous intéressons plus particuliérement aux techniques de classement et classification de documents XML.
Plus precisement, le classement associe des documents à des catégories (ou classes)
prédéfinies alors que la classification (clustering) a pour but d'identifier des
classes non connue à l'avance. Pour celà on s'appuie
traditionnellement sur des modèles statistiques qui manipulent des
ensembles de mots.
Certaines
méthodes de classification réduisent donc les documents XML à leur partie
purement textuelle, sans prendre avantage de la structure XML qui
pourtant véhicule une information riche: le même mot n'a pas forcémentle même
impact ou le même sens dans un titre et dans une autre partie du document.
Les approches récentes développent des modèles et des méthodes de classification
prenant en compte à la fois le contenu des documents et leur structure, ou la structure seule.
Dans ce dernier cas, l'objectif est de regrouper en clusters les documents présentant une structure similaire,
et de generer pour chaque cluster une structure generique (DTD) représentant au mieux ce cluster.
L'objectif du stage est de développer une nouvelle méthode de classification basée sur la structure et
de la comparer avec une méthode existante. Ce travail sera fait dans le contexte du groupe de
travail international INEX (Initiative for the Evaluation of XML retrieval).
Le travail comportera les étapes suivantes (dépendant de la longueur du stage):