Apprentissage statistique et data mining - WMMBEAS9

Volumes horaires
- CM 18.0
- Projet -
- TD -
- Stage -
- TP 15.0
- DS -
Crédits ECTS
Crédits ECTS 2.0

Objectif(s)

Acquérir les compétences en statistiques, apprentissage automatique et fouille de données permettant de mettre en œuvre un projet d’extraction de connaissances à partir d’un jeu de données.

Acquérir une culture générale suffisante en science des données pour pourvoir interagir avec des spécialistes de la théorie de l’apprentissage statistique.

Responsable(s)

Alhame DOUZAL

Contenu(s)

Il s’agit des approches statistiques et des approches de fouille (mining) de données et de textes permettant d’extraire des connaissances de grandes quantités d'information.
Ce cours abordera des approches statistiques permettant d’analyser des données multidimensionelles. Ce type d'analyse intervient dans de nombreux domaines d'applications tels que la finance, l’économie, la biologie et l'environnement où l’exploitation des masses de données peut jouer un rôle important. Nous étudierons (1) l'Analyse en Composantes Principales, (2) la régression linéaire multiple et son extension à la régression logistique. Nous ferons une brève introduction à (3) la classification supervisée par SVM ou arbres de décision (4) la classification non-supervisée par l'algorithme des k-moyennes.
En complément nous étudierons de façon pratique :

des algorithmes de fouille de données permettant de faire des analyses fines sur de nombreuses données (structurées ou non);
des techniques de mining, tels que l’extraction de patrons fréquents, le clustering et classification.

Comme l'énorme besoin de calcul est un des problèmes majeurs de l’analyse des masses de données, nous travaillerons également les questions des performances. Nous apprendrons à exploiter la puissance des processeurs multi-coeurs et des clusters grâce à plusieurs techniques de Contenu :

Métriques (6h CM, 2 séances) : Métrique pour données non structurées et structurées (temporelles)
Apprentissage non-supervisé (6h CM, 2 séances) :
Par partitionnement (k-means, PAM),
Hiérarchique (CAH, Divisive),
Sous contraintes (SOM)
Apprentissage supervisé (6h CM, 2 séances) :
Arbre de classification/Régression (CART),
Par plus proches voisins (kNN),
A vaste marge (SVM)
Validation croisée, Bootstrap, etc.
TP (12h) : 4 séances de 3h à dédoubler

Prérequis

Théorie des probabilités (axiomes, densité, espérance, conditionnement).
Bases de la statistique (estimation par maximum de vraisemblance, méthode des moments, biais, convergence et normalité asymptotique des estimateurs).

Contrôle des connaissances

N1=E1
N2=E2

Calendrier

Le cours est programmé dans ces filières :