Ensimag Rubrique Formation 2022

Analyse statistique et fouille de document (en anglais) - 4MMSADM

  • Volumes horaires

    • CM 16.5
    • Projet -
    • TD 9.0
    • Stage -
    • TP 9.0
    • DS -

    Crédits ECTS

    Crédits ECTS 3.0

Objectif(s)

L’objectif de ce cours est de se familiariser avec les outils d’analyse de données, indispensables dans de nombreuses applications : marketing, segmentation d’utilisateurs, finance, économie, biologie, environnement…
Les outils présentés seront d’une part des outils statistiques pour une approche globales des données, et d’autre part des outils de data mining pour trouver des patterns caractéristiques de certaines zones des données ou de documents.
Le cours développera des aspects théoriques tout en mettant l'accent sur la pratique, par l’utilisation du logiciel R et de plusieurs algorithmes performants de pattern mining.

Ce module est plutôt destiné aux élèves des filières IF-mf, ISI, MMIS à sensibilité plus appliquée et MSIAM. Les élèves désirant aborder les aspects plus pointus du cours d'un point de vue statistique sont invités à assister à Analyse statistique multidimensionelle.

Responsable(s)

Pedro Luiz COELHO RODRIGUES

Contenu(s)

1. Régression linéaire multiple. Moindres carrés, modèle linéaire gaussien, tests d’hypothèses linéaires , analyse de la variance à un facteur contrôlé.
2. Analyse en Composantes Principales (ACP).
3. Classification, classification supervisée, analyse linéaire discriminante, perceptron, Naive Bayes
4. Fouille de documents, représentation numérique des documents, lien avec le clustering de graphes

Prérequis

Notions usuelles en probabilités (loi, densité jointe de vecteurs, probabilité conditionnelle, espérance, variance, covariance, loi normale)

Notions usuelles en statistique mathématique (estimateur, intervalle de confiance, test). La connaissance de la régression linéaire simple est un plus.

Notions d'algèbre linéaire (réduction d'endomorphismes).

La connaissance du logiciel R et de RStudio est un plus.

Contrôle des connaissances

CONTRÔLE CONTINU :
Type d'évaluation (ex : TP, assiduité, participation) :

SESSION NORMALE :
Type d'examen (écrit, oral, examen sur machine) : un examen sur machine de 3h (E) et un rapport à rendre sur les travaux pratiques (P)
Salle spécifique : salles de TP en configuration "examen" (pas de connection internet, etc.)
Durée : 3h
Documents autorisés (ex : aucun, résumé feuille A4 manuscrite, dictionnaires, tous documents) : tout document manuscrit.
Documents interdits (ex : livres, tous documents) : tout document imprimé.
Matériel (ex : calculatrices):

  • matériel autorisé, préciser :
  • matériel interdit, préciser : ordinateur personnel, calculatrice
    Commentaires :

SESSION DE RATTRAPAGE :
Type d'examen (écrit, oral, examen sur machine) : écrit
Salle spécifique :
Durée : 2h
Documents autorisés (ex : aucun, résumé feuille A4 manuscrite, dictionnaires, tous documents) : tout document manuscrit.
Documents interdits (ex : livres, tous documents) : tout document imprimé.
Matériel (ex : calculatrices):

  • matériel autorisé, préciser :
  • matériel interdit, préciser :
    Commentaires :

    • MCC en présentiel **
      N1=1/2*TP en temps libre + 1/2*Examen écrit
      N2=1/2*TP en temps libre + 1/2*Examen écrit
    • MCC en distanciel**
      N1=1/2*TP en temps libre + 1/2*Devoir à la maison
      N2=1/2*TP en temps libre + 1/2*Devoir à la maison

L'examen existe uniquement en anglais FR

Calendrier

Le cours est programmé dans ces filières :

  • Cursus ingénieur - Filière MMIS - Semestre 8 (ce cours est donné uniquement en anglais EN)
  • Cursus ingénieur - Filière ISI - Semestre 8 (ce cours est donné uniquement en anglais EN)
  • Cursus ingénieur - Filière IF - Semestre 8 (ce cours est donné uniquement en anglais EN)
cf. l'emploi du temps 2022/2023

Informations complémentaires

Code de l'enseignement : 4MMSADM
Langue(s) d'enseignement : FR

Vous pouvez retrouver ce cours dans la liste de tous les cours.

Bibliographie

CM BISHOP (2006) Pattern recognition and machine Learning. Springer
http://research.microsoft.com/en-us/um/people/cmbishop/prml/

C. CHATFIELD and AJ COLLINS (1980) Introduction to multivariate analysis. Science paperbacks

T HASTIE, R TIBSHIRANI, and J FRIEDMAN (2009). The Elements of Statistical Learning, 2d ed, Springer. http://www-stat.stanford.edu/~tibs/ElemStatLearn/

G. SAPORTA (2006) : Probabilités, statistique et analyse des données, Technip.