Aller au menu Aller au contenu
Une voie, plusieurs choix
Informatique et Mathématiques appliquées
Une voie, plusieurs choix

> Formation > Cursus ingénieur

Apprentissage statistique et data mining - WMMBEAS9

A+Augmenter la taille du texteA-Réduire la taille du texteImprimer le documentEnvoyer cette page par mail cet article Facebook Twitter Linked In
  • Volumes horaires

    • CM : 18.0
    • TD : -
    • TP : 15.0
    • Projet : -
    • Stage : -
    • DS : -
    Crédits ECTS : 2.0
  • Responsables : Alhame DOUZAL

Objectifs

Acquérir les compétences en statistiques, apprentissage automatique et fouille de données permettant de mettre en œuvre un projet d’extraction de connaissances à partir d’un jeu de données.

Acquérir une culture générale suffisante en science des données pour pourvoir interagir avec des spécialistes de la théorie de l’apprentissage statistique.

Contenu

Il s’agit des approches statistiques et des approches de fouille (mining) de données et de textes permettant d’extraire des connaissances de grandes quantités d'information.
Ce cours abordera des approches statistiques permettant d’analyser des données multidimensionelles. Ce type d'analyse intervient dans de nombreux domaines d'applications tels que la finance, l’économie, la biologie et l'environnement où l’exploitation des masses de données peut jouer un rôle important. Nous étudierons (1) l'Analyse en Composantes Principales, (2) la régression linéaire multiple et son extension à la régression logistique. Nous ferons une brève introduction à (3) la classification supervisée par SVM ou arbres de décision (4) la classification non-supervisée par l'algorithme des k-moyennes.
En complément nous étudierons de façon pratique :

  • des algorithmes de fouille de données permettant de faire des analyses fines sur de nombreuses données (structurées ou non);
  • des techniques de mining, tels que l’extraction de patrons fréquents, le clustering et classification.

Comme l'énorme besoin de calcul est un des problèmes majeurs de l’analyse des masses de données, nous travaillerons également les questions des performances. Nous apprendrons à exploiter la puissance des processeurs multi-coeurs et des clusters grâce à plusieurs techniques de Contenu :

Métriques (6h CM, 2 séances) : Métrique pour données non structurées et structurées (temporelles)
Apprentissage non-supervisé (6h CM, 2 séances) :
Par partitionnement (k-means, PAM),
Hiérarchique (CAH, Divisive),
Sous contraintes (SOM)
Apprentissage supervisé (6h CM, 2 séances) :
Arbre de classification/Régression (CART),
Par plus proches voisins (kNN),
A vaste marge (SVM)
Validation croisée, Bootstrap, etc.
TP (12h) : 4 séances de 3h à dédoubler

Prérequis

Théorie des probabilités (axiomes, densité, espérance, conditionnement).
Bases de la statistique (estimation par maximum de vraisemblance, méthode des moments, biais, convergence et normalité asymptotique des estimateurs).

Contrôles des connaissances

N1=E1
N2=E2

N1=E1
N2=E2

Calendrier

Le cours est programmé dans ces filières :

  • Cursus ingénieur - Mastère Big-Data - Semestre 9
cf. l'emploi du temps 2020/2021

Informations complémentaires

Code de l'enseignement : WMMBEAS9
Langue(s) d'enseignement : FR

Vous pouvez retrouver ce cours dans la liste de tous les cours.

Bibliographie

Principes et méthodes statistiques
http://www-ljk.imag.fr/membres/Olivier.Gaudoin/courses.html

Hogg, R. V., McKean, J. W., & Craig, A. T. 2013. Introduction to Mathematical Statistics. 7th Edition. Pearson.

Notes de cours de probabilités
http://membres-timc.imag.fr/Olivier.Francois/teaching.html

A+Augmenter la taille du texteA-Réduire la taille du texteImprimer le documentEnvoyer cette page par mail cet article Facebook Twitter Linked In

mise à jour le 10 mars 2020

Université Grenoble Alpes