Volumes horaires
- CM 36.0
- Projet -
- TD -
- Stage -
- TP -
- DS -
Crédits ECTS
Crédits ECTS 4.0
Objectif(s)
Acquérir une culture générale suffisante en science des données pour pourvoir interagir avec des spécialistes de la théorie de l’apprentissage statistique.
Jean-Marc BROSSIER
Contenu(s)
1 Panorama
1.1 Qu’est-ce que c’est?
1.2 Quelques exemples d’application
1.3 Catégories d’algorithmes. Types de supervision de l’apprentissage. En ligne/Hors ligne. Basé sur des cas ou des modèles
1.4 Ecueils classiques. Mauvaises données. Mauvais algorithme
1.5 Importance fondamentale de l’a priori
1.6 Pourquoi a-t-on besoin d’algorithme de ML
1.7 Liens avec d’autres champs disciplinaires
I Principes
2 Modèle supervisé
2.1 Ingrédients. Espace des caractéristiques. Espace des étiquettes. Base d’apprentissage
Génération des données et des étiquettes
2.2 Risque
2.3 Minimisation du Risque Empirique(MRE). Surapprentissage. Régularisation de la minimisation du risque empirique
3 Apprentissage Probablement Approximativement Correct (PAC)
4 Prédicteur optimal de Bayes
5 Dimension de Vapnik-Chervonenkis. Apprentissage PAC. Exemple de classes PAC et non PAC.
Résultats fondamentaux de l’apprentissage
6 Apprentissage et a priori
6.1 No free lunch
6.2 Compromis biais-variancee. Décomposition biais-variance
7 Réduction de dimension
7.1 Malédiction de la dimension.
7.2 Motivation de la réduction de dimension
7.3 Sélection de variables. Filtrage, Conteneur, Méthodes embarquées
7.4 Extraction de variables
II Algorithmes
8 Diverses approches : modèles génératifs, k-NN, perceptron, régression logistique
8.1 Modèle génératifs. Impossibilité du prédicteur de Bayes. Approche de type Bayes pour des lois normales. QDA/LDA/Bayes naïf
8.2 Méthodes des plus proches voisins
8.3 Le perceptron, classifieur demi espace élémentaire
8.4 Régression logistique
9 Convexification. Probabilité d’erreur. Substitut convexe du risque. Choix de l’ensemble des classifieurs
10 Prédicteurs linéaires. Régression linéaire en dimension 1. Régression polynômiale. Régression en dimension d. Estimateur des moindres carrés non régularisé.
Régularisations Ridge LASSO
11 SVM Méthode des multiplicateurs de Lagrange. Distances au séparateur et marge. Cas réalisable et non réalisable. SVM durs et souples.
12 Séparateurs non linéaires et espaces de redescription. Noyau et redescription Noyau défini positif
13 Méthodes Deep learning : revue du domaine et de toutes les structures importantes pour différents domaines applicatifs.
Prérequis- Notions fondamentales d’algèbre linéaire
- Espace euclidiens
- Produit scalaire
- Opérations de base sur les matrices
- Matrices semi-définies positives
- Formes hermitiennes
- Diagonalisation de matrice et valeurs propres
- Bibliographie indicative :
- Fabien Margairaz. Algèbre linéaire I & II: Notes de cours de l’EPFL. https://docplayer.fr/23918385-Algebre-lineaire-i-ii.html
- Les notions de base d’algèbre sont aussi très bien décrites sur Wikipédia
- Notions fondamentales de probabilités
- Espérance, variance
- Probabilités jointes et conditionnelles, formule de Bayes
- Lois usuelles (loi de Bernoulli, loi uniforme, loi normale)
- Estimation des paramètres d’une loi par maximisation de la vraisemblance
- Bibliographie indicative :
- Olivier François. Notes de cours de Probabilités Appliquées. Les 40 premières pages. http://membres-timc.imag.fr/Olivier.Francois/Poly_Cours_Proba.pdf
- Notions fondamentales de statistiques
- Statistiques descriptives : Population statistique, Estimateurs de tendance centrale et de dispersion, Représentations usuelles (histogramme, diagramme en bâtons, etc.)
- Notions élémentaires de test d'hypothèse : Echantillons, Hypothèse nulle, hypothèse alternative, risques de type I et II, Test de Student
- Bibliographie indicative :
- Olivier Gaudoin. Principes et Méthodes Statistiques : Notes de cours, Ensimag 2A. Chapitres I,II, V (3 premières sections) https://www-ljk.imag.fr/membres/Olivier.Gaudoin/PMS.pdf
Evaluation : Examen Ecrit (1h30)
Rattrapage : Examen Ecrit (1h30)
N1=E1
N2=E2
L'évaluation de cette matière se fait dans la même épreuve écrite que celle de "Fondements mathématiques pour l'IA"
CONTRÔLE CONTINU : Non
SESSION NORMALE :
Type d'examen : écrit
Salle spécifique : Non
Durée : 1h30
Documents autorisés : notes du cours
Documents interdits : tout le reste
Matériel autorisé : aucun
SESSION DE RATTRAPAGE :
Type d'examen : écrit
Salle spécifique : Non
Durée : 1h30
Documents autorisés : notes du cours
Documents interdits : tout le reste
Matériel autorisé : aucun
N1=E1
N2=E2
Le cours est programmé dans ces filières :
- Cursus ingénieur - Mastère Big-Data - Semestre 9
Code de l'enseignement : WMMBESDF
Langue(s) d'enseignement :
Vous pouvez retrouver ce cours dans la liste de tous les cours.
Principes et méthodes statistiques
https://www-ljk.imag.fr/membres/Olivier.Gaudoin/PMS.pdf
Notes de cours de probabilités
http://membres-timc.imag.fr/Olivier.Francois/Poly_Cours_Proba.pdf