Ensimag Rubrique Formation 2022

Fouille de données et analyse statistique multi-dimensionnelle (en anglais) - 4MMFDAS6

  • Volumes horaires

    • CM 13.0
    • TD 4.5
    • TP 15.5

    Crédits ECTS

    Crédits ECTS 3.0

Objectif(s)

L’objectif de ce cours est de se familiariser avec les outils d’analyse de données, indispensables dans de nombreuses applications : marketing, segmentation d’utilisateurs, finance, économie, biologie, environnement…
Les outils présentés seront d’une part des outils statistiques pour une approche globales des données, et d’autre part des outils de data mining pour trouver des patterns caractéristiques de certaines zones des données ou de documents.
Le cours insistera à la fois sur les aspects théoriques et sur la pratique, par l’utilisation du logiciel R et de plusieurs algorithmes performants de pattern mining.

Contact Jean-Baptiste DURAND

Contenu(s)

1. Régression linéaire multiple. Moindres carrés, modèle linéaire gaussien, tests d’hypothèses linéaires,
2. Analyse de la variance à un et deux facteurs contrôlés.
3. Analyse en Composantes Principales (ACP).
4. Classification, classification supervisée, analyse linéaire discriminante, classification non-supervisée, K-means.
5. Fouille de documents, recherche de patterns fréquents.



Prérequis

Cours de Probabilités Appliquées 1 et 2 de 1ère année, de Principes et Méthodes Statistiques de 1ère année

Contrôle des connaissances

CONTRÔLE CONTINU :
Type d'évaluation (ex : TP, assiduité, participation) :

SESSION NORMALE :
Type d'examen (écrit, oral, examen sur machine) : un examen sur machine de 2 h (E) et un rapport à rendre sur les travaux pratiques (P)
Salle spécifique : salles de TP en configuration "examen" (pas de connection internet, etc.)
Durée : 2h
Documents autorisés (ex : aucun, résumé feuille A4 manuscrite, dictionnaires, tous documents) : notes de cours, de TD, rapports de TP
Documents interdits (ex : livres, tous documents) : livres
Matériel (ex : calculatrices):

  • matériel autorisé, préciser :
  • matériel interdit, préciser : ordinateur personnel, calculatrice
    Commentaires :

SESSION DE RATTRAPAGE :
Type d'examen (écrit, oral, examen sur machine) :
Salle spécifique :
Durée :
Documents autorisés (ex : aucun, résumé feuille A4 manuscrite, dictionnaires, tous documents) :
Documents interdits (ex : livres, tous documents) :
Matériel (ex : calculatrices):

  • matériel autorisé, préciser :
  • matériel interdit, préciser :
    Commentaires :


N1=1/2E1+1/2P
N2=E2

Informations complémentaires

Cursus ingénieur->Filière ISI->Semestre 4
Cursus ingénieur->Filière IF->Semestre 4
Cursus ingénieur->Filière MMIS->Semestre 4

Bibliographie

CM BISHOP (2006) Pattern recognition and machine Learning. Springer
http://research.microsoft.com/en-us/um/people/cmbishop/prml/

C. CHATFIELD and AJ COLLINS (1980) Introduction to multivariate analysis. Science paperbacks

T HASTIE, R TIBSHIRANI, and J FRIEDMAN (2009). The Elements of Statistical Learning, 2d ed, Springer. http://www-stat.stanford.edu/~tibs/ElemStatLearn/

G. SAPORTA : Probabilités, statistique et analyse des données, Technip, 2006.