Ensimag Rubrique Formation 2022

Apprentissage statistique et data mining - WMMBEASD

  • Volumes horaires

    • CM 42.0
    • TP 21.0

    Crédits ECTS

    Crédits ECTS 4.0

Objectif(s)

Titre : Introduction aux concepts fondamentaux de l'apprentissage automatique et de l'analyse de données

Objectifs :
Acquérir les compétences en statistiques, apprentissage automatique et fouille de données permettant de mettre en œuvre un projet d’extraction de connaissances à partir d’un jeu de données.
Acquérir une culture générale suffisante en science des données pour pourvoir interagir avec des spécialistes de la théorie de l’apprentissage statistique.

Contact Jean-Baptiste DURAND

Contenu(s)

Ce cours comporte deux volets complémentaires pour l’analyse des données. Il s’agit des approches statistiques et des approches de fouille (mining) de données et de textes permettant d’extraire des connaissances de grandes quantités d'information.
Ce cours abordera des approches statistiques permettant d’analyser des données multidimensionelles. Ce type d'analyse intervient dans de nombreux domaines d'applications tels que la finance, l’économie, la biologie et l'environnement où l’exploitation des masses de données peut jouer un rôle important. Nous étudierons (1) l'Analyse en Composantes Principales, (2) la régression linéaire multiple et son extension à la régression logistique. Nous ferons une brève introduction à (3) la classification supervisée par SVM ou arbres de décision (4) la classification non-supervisée par l'algorithme des k-moyennes.
En complément nous étudierons de façon pratique :

  • des algorithmes de fouille de données permettant de faire des analyses fines sur de nombreuses données (structurées ou non);
  • des techniques de mining, tels que l’extraction de patrons fréquents, le clustering et classification.
    Comme l'énorme besoin de calcul est un des problèmes majeurs de l’analyse des masses de données, nous travaillerons également les questions des performances. Nous apprendrons à exploiter la puissance des processeurs multi-coeurs et des clusters grâce à plusieurs techniques de Contenu :
    Partie I (A. Douzal, 30h)
    Métriques (6h CM, 2 séances) : Métrique pour données non structurées et structurées (temporelles)
    Apprentissage non-supervisé (6h CM, 2 séances) :
    Par partitionnement (k-means, PAM),
    Hiérarchique (CAH, Divisive),
    Sous contraintes (SOM)
    Apprentissage supervisé (6h CM, 2 séances) :
    Arbre de classification/Régression (CART),
    Par plus proches voisins (kNN),
    A vaste marge (SVM)
    Validation croisée, Bootstrap, etc.
    TP (12h) : 4 séances de 3h à dédoubler
    Partie II (Thomas Burger, 18h)
    Minimisation du risque empirique, introduction à la théorie statistique de l’apprentissage
    Spécificités de l’apprentissage dans un contexte « Big Data » : Malédiction de la dimension Apprentissage de variété Parcimonie et pénalité.
    Inférence à large échelle : Rappels sur le test d’hypothèse et la simulation de données i.i.d., Contrôle du taux de fausses découvertes et correction de tests multiples.


Prérequis

Théorie des probabilités (axiomes, densité, espérance, conditionnement).
Bases de la statistique (estimation par maximum de vraisemblance, méthode des moments, biais, convergence et normalité asymptotique des estimateurs).

Contrôle des connaissances

N1=E1
N2=E2



N1=E1
N2=E2

Informations complémentaires

Cursus ingénieur->Mastère Big-Data->Semestre 9

Bibliographie

Principes et méthodes statistiques
http://www-ljk.imag.fr/membres/Olivier.Gaudoin/courses.html

Hogg, R. V., McKean, J. W., & Craig, A. T. 2013. Introduction to Mathematical Statistics. 7th Edition. Pearson.

Notes de cours de probabilités
http://membres-timc.imag.fr/Olivier.Francois/teaching.html