CLASSIFICATION AUTOMATIQUE
MULTI-NIVEAUX, APPLICATION AUX GRANDS
ENSEMBLES DE DONNEES
Le développement rapide
d’outils de gestion de grandes bases de données ayant une organisation complexe
et une architecture pouvant contenir une centaine de tables connectées entre
elles par des relations multiples, pose des nouveaux problèmes aux méthodes
traditionnelles basées sur la notion tableau de données qui a été modélisée
avec succès par les tableurs.
Le premier problème à résoudre
est celui de la taille des jeux qui
dépasse souvent le million de sujets et la centaine de variables.. Dans ce cas nous
proposons d’utiliser l’algorithme de Kohonen (Kohonen, 1989) ou bien l'algorithme BIRCH (Tian Zhang, Raghu Ramakrishnan, et Miron Livny.,1996) pour construire un ensemble
important de micro-classes. Puis sur ces micro-classes appliquer des méthodes de classification
possédant un modèle classificatoire sous-jacent plus complexe.
L’objectif de ce stage
est :
La formalisation de la navigation dans un site WEB
implique l’analyse de l’usage. Cette analyse de l’usage est obtenue par la
recherche de typologies de sessions à partir des fichiers de traces qui
contiennent le parcours et les actions de l’utilisateur sur ce site.
Dans le cadre de ce stage la méthode de classification multi-niveaux sera utilisée pour visualiser les différents
comportements des utilisateurs. Durant ce stage des mesures de validation
externe des partitions obtenues pourront être étudiées
La connaissance du langage C++
est nécessaire.
Bibliographie:
Gordon, A.D. (1981) Classification: Methods for the Exploratory Analysis of Multivariate
Data.
Ambroise, C., Sèze, G., Badran,
F., Thiria, S. (2000) ‘Hierarchical clustering of
self-organizing maps for cloud classification’ Neurocomputing, 30:47-52
Murthag, F. (1995) ‘Interpreting the Kohonen
self-organizing feature map using contiguity-constrained clustering’ Patterns Recognition Letters, 16:399-408
Tian Zhang, Raghu Ramakrishnan, Miron Livny. (1996) ‘BIRCH: An Efficient Data Clustering Method
for Very Large Databases’. In Proceedings of the 1996 ACM
SIGMOD International Conference on Management of Data, pp 103--114,
Durée:
4-6 mois
Niveau :
Master 2ème année ou stage de fin d’étude d’école d’ingénieur
Lieu :
INRIA-Rocquencourt
Responsable :
Yves Lechevallier, E_mail : Yves.Lechevallier@inria.fr