CLASSIFICATION AUTOMATIQUE MULTI-NIVEAUX, APPLICATION AUX GRANDS  ENSEMBLES DE DONNEES

Le développement rapide d’outils de gestion de grandes bases de données ayant une organisation complexe et une architecture pouvant contenir une centaine de tables connectées entre elles par des relations multiples, pose des nouveaux problèmes aux méthodes traditionnelles basées sur la notion tableau de données qui a été modélisée avec succès par les tableurs.

Le premier problème à résoudre est celui de la taille des jeux  qui dépasse souvent le million de sujets et la centaine de variables.. Dans ce cas  nous proposons d’utiliser l’algorithme de Kohonen (Kohonen, 1989) ou bien l'algorithme BIRCH  (Tian Zhang, Raghu Ramakrishnan, et Miron Livny.,1996) pour construire un ensemble important de micro-classes. Puis sur ces micro-classes appliquer des méthodes de classification possédant un modèle classificatoire sous-jacent plus complexe.

L’objectif de ce stage est :

  • Utilisation d’une version des cartes de Kohonen pour construire ces micro-classes;
  • Modélisation de ce nouveau tableau de données,
  • La proposition d’algorithmes de classification pour second niveau, l’un pourra être basé sur le concept de distance, l’autre sur une approche  conceptuelle.

 

La formalisation de la navigation dans un site WEB implique l’analyse de l’usage. Cette analyse de l’usage est obtenue par la recherche de typologies de sessions à partir des fichiers de traces qui contiennent le parcours et les actions de l’utilisateur sur ce site.

Dans le cadre de ce stage la méthode de classification multi-niveaux sera utilisée pour visualiser les différents comportements des utilisateurs. Durant ce stage des mesures de validation externe des partitions obtenues pourront être étudiées

 

La connaissance du langage C++ est nécessaire.

 

Bibliographie:

 

Gordon, A.D. (1981) Classification: Methods for the Exploratory Analysis of Multivariate Data. London: Chapman & Hall

Ambroise, C., Sèze, G., Badran, F., Thiria, S. (2000) ‘Hierarchical clustering of self-organizing maps for cloud classification’ Neurocomputing, 30:47-52

Murthag, F. (1995) ‘Interpreting the Kohonen self-organizing feature map using contiguity-constrained clustering’ Patterns Recognition Letters, 16:399-408

Tian Zhang, Raghu Ramakrishnan, Miron Livny. (1996) ‘BIRCH: An Efficient Data Clustering Method for Very Large Databases’. In Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data, pp 103--114, Montreal, Canada.

 

Durée: 4-6 mois

Niveau : Master 2ème année ou stage de fin d’étude d’école d’ingénieur

Lieu : INRIA-Rocquencourt

Responsable : Yves Lechevallier, E_mail : Yves.Lechevallier@inria.fr