Ensimag Rubrique Formation 2022

Sciences des données : fondements algébriques et statistiques - WMMBESDF

  • Volumes horaires

    • CM 36.0
    • Projet -
    • TD -
    • Stage -
    • TP -
    • DS -

    Crédits ECTS

    Crédits ECTS 4.0

Objectif(s)

Acquérir une culture générale suffisante en science des données pour pourvoir interagir avec des spécialistes de la théorie de l’apprentissage statistique.

Responsable(s)

Jean-Marc BROSSIER

Contenu(s)

1 Panorama
1.1 Qu’est-ce que c’est?
1.2 Quelques exemples d’application
1.3 Catégories d’algorithmes. Types de supervision de l’apprentissage. En ligne/Hors ligne. Basé sur des cas ou des modèles
1.4 Ecueils classiques. Mauvaises données. Mauvais algorithme
1.5 Importance fondamentale de l’a priori
1.6 Pourquoi a-t-on besoin d’algorithme de ML
1.7 Liens avec d’autres champs disciplinaires

I Principes

2 Modèle supervisé
2.1 Ingrédients. Espace des caractéristiques. Espace des étiquettes. Base d’apprentissage
Génération des données et des étiquettes
2.2 Risque
2.3 Minimisation du Risque Empirique(MRE). Surapprentissage. Régularisation de la minimisation du risque empirique

3 Apprentissage Probablement Approximativement Correct (PAC)

4 Prédicteur optimal de Bayes

5 Dimension de Vapnik-Chervonenkis. Apprentissage PAC. Exemple de classes PAC et non PAC.
Résultats fondamentaux de l’apprentissage

6 Apprentissage et a priori
6.1 No free lunch
6.2 Compromis biais-variancee. Décomposition biais-variance

7 Réduction de dimension
7.1 Malédiction de la dimension.
7.2 Motivation de la réduction de dimension
7.3 Sélection de variables. Filtrage, Conteneur, Méthodes embarquées
7.4 Extraction de variables

II Algorithmes

8 Diverses approches : modèles génératifs, k-NN, perceptron, régression logistique
8.1 Modèle génératifs. Impossibilité du prédicteur de Bayes. Approche de type Bayes pour des lois normales. QDA/LDA/Bayes naïf
8.2 Méthodes des plus proches voisins
8.3 Le perceptron, classifieur demi espace élémentaire
8.4 Régression logistique

9 Convexification. Probabilité d’erreur. Substitut convexe du risque. Choix de l’ensemble des classifieurs

10 Prédicteurs linéaires. Régression linéaire en dimension 1. Régression polynômiale. Régression en dimension d. Estimateur des moindres carrés non régularisé.
Régularisations Ridge LASSO

11 SVM Méthode des multiplicateurs de Lagrange. Distances au séparateur et marge. Cas réalisable et non réalisable. SVM durs et souples.

12 Séparateurs non linéaires et espaces de redescription. Noyau et redescription Noyau défini positif

13 Méthodes Deep learning : revue du domaine et de toutes les structures importantes pour différents domaines applicatifs.

Prérequis

  • Notions fondamentales d’algèbre linéaire
    • Espace euclidiens
    • Produit scalaire
    • Opérations de base sur les matrices
    • Matrices semi-définies positives
    • Formes hermitiennes
    • Diagonalisation de matrice et valeurs propres
  • Notions fondamentales de probabilités
    • Espérance, variance
    • Probabilités jointes et conditionnelles, formule de Bayes
    • Lois usuelles (loi de Bernoulli, loi uniforme, loi normale)
    • Estimation des paramètres d’une loi par maximisation de la vraisemblance
  • Notions fondamentales de statistiques
    • Statistiques descriptives : Population statistique, Estimateurs de tendance centrale et de dispersion, Représentations usuelles (histogramme, diagramme en bâtons, etc.)
    • Notions élémentaires de test d'hypothèse : Echantillons, Hypothèse nulle, hypothèse alternative, risques de type I et II, Test de Student

Contrôle des connaissances

Evaluation : Examen Ecrit (1h30)

Rattrapage : Examen Ecrit (1h30)

N1=E1
N2=E2
L'évaluation de cette matière se fait dans la même épreuve écrite que celle de "Fondements mathématiques pour l'IA"

CONTRÔLE CONTINU : Non

SESSION NORMALE :
Type d'examen : écrit
Salle spécifique : Non
Durée : 1h30
Documents autorisés : notes du cours
Documents interdits : tout le reste
Matériel autorisé : aucun

SESSION DE RATTRAPAGE :
Type d'examen : écrit
Salle spécifique : Non
Durée : 1h30
Documents autorisés : notes du cours
Documents interdits : tout le reste
Matériel autorisé : aucun

N1=E1
N2=E2

Calendrier

Le cours est programmé dans ces filières :

  • Cursus ingénieur - Mastère Big-Data - Semestre 9
cf. l'emploi du temps 2025/2026

Informations complémentaires

Code de l'enseignement : WMMBESDF
Langue(s) d'enseignement : FR

Vous pouvez retrouver ce cours dans la liste de tous les cours.

Bibliographie

Principes et méthodes statistiques
https://www-ljk.imag.fr/membres/Olivier.Gaudoin/PMS.pdf

Notes de cours de probabilités
http://membres-timc.imag.fr/Olivier.Francois/Poly_Cours_Proba.pdf