Apprentissage statistique et data mining - WMMBEADM

Volumes horaires
- CM 30.0
- Projet -
- TD -
- Stage -
- TP -
- DS -
Crédits ECTS
Crédits ECTS 3.5

Objectif(s)

Acquérir les compétences en statistiques, apprentissage automatique et fouille de données permettant de mettre en œuvre un projet d’extraction de connaissances à partir d’un jeu de données.

Acquérir une culture générale suffisante en science des données pour pourvoir interagir avec des spécialistes de la théorie de l’apprentissage statistique.

Responsable(s)

Amira BARHOUMI

Contenu(s)

Il s’agit des approches statistiques et des approches de fouille (mining) de données et de textes permettant d’extraire des connaissances de grandes quantités d'information.
Ce cours abordera des approches statistiques permettant d’analyser des données multidimensionelles. Ce type d'analyse intervient dans de nombreux domaines d'applications tels que la finance, l’économie, la biologie et l'environnement où l’exploitation des masses de données peut jouer un rôle important. Nous étudierons (1) l'Analyse en Composantes Principales, (2) la régression linéaire multiple et son extension à la régression logistique. Nous ferons une brève introduction à (3) la classification supervisée par SVM ou arbres de décision (4) la classification non-supervisée par l'algorithme des k-moyennes.
En complément nous étudierons de façon pratique :

des algorithmes de fouille de données permettant de faire des analyses fines sur de nombreuses données (structurées ou non);
des techniques de mining, tels que l’extraction de patrons fréquents, le clustering et classification.

Comme l'énorme besoin de calcul est un des problèmes majeurs de l’analyse des masses de données, nous travaillerons également les questions des performances. Nous apprendrons à exploiter la puissance des processeurs multi-coeurs et des clusters grâce à plusieurs techniques de Contenu :

Métriques (6h CM, 2 séances) : Métrique pour données non structurées et structurées (temporelles)
Apprentissage non-supervisé (6h CM, 2 séances) :
Par partitionnement (k-means, PAM),
Hiérarchique (CAH, Divisive),
Sous contraintes (SOM)
Apprentissage supervisé (6h CM, 2 séances) :
Arbre de classification/Régression (CART),
Par plus proches voisins (kNN),
A vaste marge (SVM)
Validation croisée, Bootstrap, etc.
TP (12h) : 4 séances de 3h à dédoubler

Prérequis

Théorie des probabilités (axiomes, densité, espérance, conditionnement).
Bases de la statistique (estimation par maximum de vraisemblance, méthode des moments, biais, convergence et normalité asymptotique des estimateurs).

Contrôle des connaissances

Evaluation : Examen écrit

Rattrapage : Examen écrit (1h)

Évaluation :
2 épreuves écrites en contrôle continu (CC) d'une 1h et 30mn
Calcul de la note de CC : la moyenne des 2 notes

Rattrapage : épreuve écrite d'une 1h.

Pour les épreuves écrites, toute sorte de documents est interdite et les calculatrices sont autorisées.

Calendrier

Le cours est programmé dans ces filières :

Cursus ingénieur - Mastère Big-Data - Semestre 9

cf. l'emploi du temps 2026/2027

Informations complémentaires

Code de l'enseignement : WMMBEADM
Langue(s) d'enseignement :

Vous pouvez retrouver ce cours dans la liste de tous les cours.

Bibliographie

Principes et méthodes statistiques
http://www-ljk.imag.fr/membres/Olivier.Gaudoin/courses.html

Hogg, R. V., McKean, J. W., & Craig, A. T. 2013. Introduction to Mathematical Statistics. 7th Edition. Pearson.

Notes de cours de probabilités
http://membres-timc.imag.fr/Olivier.Francois/teaching.html

Mise à jour - 24/07/2026