Ensimag Rubrique Formation 2022

Perception, vision 3D et apprentissage profond - 5MMPVA

  • Volumes horaires

    • CM 36.0
    • Projet -
    • TD -
    • Stage -
    • TP 36.0
    • DS -

    Crédits ECTS

    Crédits ECTS 6.0

Objectif(s)

Ce cours permet d'acquérir les connaissances nécessaires à la mise en œuvre de systèmes de vision par ordinateur applicable à des domaines aussi divers que l’interaction homme-machine, la télécommunications, la téléprésence, la robotique, l’imagerie médicale, l’aéronautique, les véhicules autonomes, ou encore l’inspection industrielle.

Le cours posera tout d'abord les bases de la perception visuelle, et représentations en couleur ou mouvement, et les perturbations et ambiguïté liées à l'observation par des caméras. Les modèles et outils de base seront discutés, comme l'utilisation des techniques de détection de points ou lignes d'intérêt, de segmentation, de géométrie projective, et de modèle camera permettant de décrire le phénomène de projection et de placement des caméras dans l'espace. Les bases de l'apprentissage par réseaux de neurones seront introduites et mises en pratique pour mettre en avant leur utilité dans ce contexte. Le cours ouvre en outre sur les possibilités applicatives offertes par ces outils, en abordant des problèmes classiques comme la construction de panoramiques d'images, la reconstruction 3D, le suivi d'objet dans les vidéos ou la reconnaissance de classes d'objets.

Une fois les bases posées, des approfondissements seront proposés concernant les représentations visuelles 2D et 3D sur lesquelles s'appuient les algorithmes de vision par ordinateur par apprentissage. Il est effet important de développer des représentations visuelles adaptées au support visuel d’entrée (photographies, vidéos, etc.) mais aussi adaptées à la tâche à laquelle ces représentations visuelles seront appliquées. Une même représentation pourra notamment être réutilisée pour plusieurs tâches d’analyse complémentaires, de façon séquentielle, ou simultanée, sera abordée, ainsi que différentes techniques de représentations visuelles et de leurs modèles associés, et leur mise à jour continue. Le cours couvrira en particulier: l’apprentissage supervisé, semi-supervisé, et auto-supervisé de représentations visuelles, l’adaptation de domaine, les approches pour contrer le problème dit de l’oubli catastrophique.

Ce cours est donné par trois chercheurs qui travaillent dans les domaines de la vision par ordinateur et de l’apprentissage automatique, respectivement à Inria Grenoble (Jean-Sébastien Franco, Karteek Alahari), et au centre de recherche européen de NAVER LABS (Diane Larlus). Les enseignants contribuent de leur expertise en recherche académique mais aussi industrielle lors de la présentation de ce cours. Ils présenteront les dernières techniques du domaine, en s’appuyant sur des articles de recherche récents.

Responsable(s)

Jean-Sebastien FRANCO

Contenu(s)

1. Perception
- Perception de la lumière et de la couleur
- Filtrage, détection de contours, points d'intérêt
- Perception du mouvement

2. Apprentissage et réseaux de Neurones
- Principales architectures d'apprentissage à réseaux neuronaux utilisées en vision
- Principes de l'entraînement d'un tel réseau
- Application à quelques problèmes standards, détection d'objet

3. Représentation de données visuelles pour l'apprentissage
- Adaptation de domaine
- Apprentissage continu
- Reconnaissance d'actions
- Detection, segmentation

4. Géométrie des caméras
- Géométrie projective et applications
- Homographie et alignements d'image
- Formation des images, calibrage des caméras
- Panoramique d'images

5. Estimer la forme et le mouvement
- Reconstruction à partir de silhouettes
- Triangulation de points 3D à partir d'images
- Stereo multi-vue, rendu différentiel

Prérequis

Culture de base en statistiques, algèbre linéaire, géométrie, informatique (structures de données et algorithmique) et traitement d’images.

Contrôle des connaissances

Evaluation : 30% de Devoir à la maison + TP notés et 70% de Examen Ecrit (3h30)

Rattrapage : Examen Ecrit (3h30)

CONTRÔLE CONTINU :
Type d'évaluation (ex : TP, assiduité, participation) : TP notés, mini-examens sur un article présenté par des élèves

SESSION NORMALE :
Type d'examen (écrit, oral, examen sur machine) : examen écrit
Salle spécifique :
Durée : 3h30
Documents autorisés (ex : aucun, résumé feuille A4 manuscrite, dictionnaires, tous documents) : 2 feuilles A4 manuscrites recto-verso
Documents interdits (ex : livres, tous documents) :
Matériel (ex : calculatrices):

  • matériel autorisé, préciser : calculatrice
  • matériel interdit, préciser : tout autre materiel électronique et communicant
    Commentaires :

SESSION DE RATTRAPAGE :
Type d'examen (écrit, oral, examen sur machine) : examen écrit
Salle spécifique :
Durée : 3h30
Documents autorisés (ex : aucun, résumé feuille A4 manuscrite, dictionnaires, tous documents) : 2 feuilles A4 manuscrites recto-verso
Documents interdits (ex : livres, tous documents) :
Matériel (ex : calculatrices):

  • matériel autorisé, préciser : calculatrice
  • matériel interdit, préciser : tout autre materiel éléctronique et communicant
    Commentaires :

N1 = 0.7 * E1 + 0.3 CC
N2 = 0.7 * E2 + 0.3 CC
E1 = examen écrit
E2 = examen écrit
CC = contrôle continu, rendus de TP / projet / lecture articles

Calendrier

Le cours est programmé dans ces filières :

  • Cursus ingénieur - Filière MMIS - Semestre 9
cf. l'emploi du temps 2025/2026

Informations complémentaires

Code de l'enseignement : 5MMPVA
Langue(s) d'enseignement : FR

Vous pouvez retrouver ce cours dans la liste de tous les cours.

Bibliographie

Y. Lecun, Cours au College de France, http://www.college-de-france.fr/site/yann-lecun/course-2015-2016.htm

H. Wang, A. Kläser, C. Schmid, L. C.-Lin, Action Recognition by Dense Trajectories, CVPR 2011

H. Jégou, M. Douze, C. Schmid, Hamming embedding and weak geometric consistency for large scale image search, ECCV 2008

G. Csurka, C Dance, L Fan, J Willamowski, C Bray, Visual categorization with bags of keypoints, ECCV Workshop 2004

J. Sivic and A. Zisserman, Video Google: A Text Retrieval Approach to Object Matching in Videos, ICCV 2003

D. Lowe, Distinctive image features from scale-invariant keypoints, IJCV 2004

Richard Szeliski. 2010. Computer Vision: Algorithms and Applications (1st ed.). Springer-Verlag New York, Inc., New York, NY, USA.

Richard Hartley and Andrew Zisserman. 2003. Multiple View Geometry in Computer Vision (2 ed.). Cambridge University Press, New York, NY, USA.