Le Monde des Utilisateurs de L'Analyse de Données

Numéro 41

 
 

L'apprentissage statistique à grande échelle  Leon Bottou et Olivier Bousquet. La revue MODULAD, numéro 41, 2010.

Résumé
Depuis une dizaine d'années, la taille des données croit plus vite que la puissance des processeurs.
Lorsque les données disponibles sont pratiquement infinies, c'est le temps de calcul qui limite les possibilités de l'apprentissage statistique. Ce document montre que ce changement d'échelle nous conduit vers un compromis qualitativement différent dont les conséquences ne sont pas évidentes.
En particulier, bien que la descente de gradient stochastique soit un algorithme d'optimisation médiocre, on montrera, en théorie et en pratique, que sa performance est excellente pour l'apprentissage statistique à grande échelle.

Mots clés 
dendrogramme, distances hiérarchiques, relations triangulaires : équilatérales, isocèles et scalène

Abstract
Based on the theoretical structure of hierarchical classification to build the tree or dendrogram, is shown the theoretical relationship of geometrical hierarchical distances for a sequence of partial hierarchies where two partial and equal hierarchies exist in the election of classes to be added, then the partial hierarchy to be added depends on geometric distances shown by partial hierarchies regarding the third class. Theoretical development is exemplified through applications with data from the effect of atmospheric corrosion of structural steel in civil infrastructure in Mexico City and the assessment of teaching performance for postgraduate studies in Mexico.

Key words 
dendrogram, hierarchical distances, triangular relationships: equilateral, isosceles and scalene.

Article