Ensimag Rubrique Formation 2022

Apprentissage continu de représentations visuelles - 5MMACRV

  • Volumes horaires

    • CM 18.0
    • Projet -
    • TD -
    • Stage -
    • TP -
    • DS -

    Crédits ECTS

    Crédits ECTS 1.5

Objectif(s)

Images, vidéos et plus généralement données visuelles dans leurs différentes formes, se sont imposées comme un moyen privilégié d’acquérir et d’échanger de l’information, en particulier sur les réseaux sociaux. Or, ce type de données nécessite des représentations dédiées. En effet, un contenu visuel tel qu’une photographie est aussi riche qu’il est ambigu. Il est important de développer des représentations visuelles adaptées au support visuel d’entrée (photographies, vidéos, etc.) mais aussi adaptées à la tâche à laquelle ces représentations visuelles seront appliquées. De plus, une même représentation pourra être utilisée pour plusieurs tâches d’analyse complémentaires, de façon séquentielle, ou simultanée. Il s’agit donc de créer une représentation qui tienne compte de toutes ces contraintes, et qui puisse évoluer au cours du temps, si ces contraintes elles-mêmes évoluent. Ce cours, à l’intersection de la vision par ordinateur et de l’apprentissage automatique, propose une introduction aux différentes techniques de représentations visuelles et de leurs modèles associés, ainsi qu’aux techniques de mise à jour continue de ces modèles. Le cours couvrira en particulier: l’apprentissage supervisé, semi-supervisé, et auto-supervisé de représentations visuelles, l’adaptation de domaine, les approches pour contrer le problème dit de l’oubli catastrophique. Il couvrira principalement les images naturelles et les séquences vidéos, mais les techniques abordées restent valables pour d’autres types de données visuelles.

Ce cours est donné par deux chercheurs qui travaillent dans les domaines de la vision par ordinateur et de l’apprentissage automatique, respectivement à Inria Grenoble (Karteek Alahari), et au centre de recherche européen de NAVER LABS (Diane Larlus). Les deux enseignants contribuent de leur expertise en recherche académique mais aussi industrielle lors de la présentation de ce cours. Ils présenteront les dernières techniques du domaine, en s’appuyant sur des articles de recherche récents.

Responsable(s)

Diane LARLUS, Karteek ALAHARI

Contenu(s)

En particulier, le cours couvre les sujets suivants :

  • Apprentissage de représentation de données visuelles
  • Adaptation de domaine
  • Apprentissage continu
  • Reconnaissance d'actions
  • Detection, segmentation

Prérequis

culture de base en statistique, informatique (structures de données et algorithmique) et traitement d’images.

Contrôle des connaissances

CONTRÔLE CONTINU :
Type d'évaluation : mini-examens sur un article présenté par des élèves

SESSION NORMALE :
Type d'examen : examen écrit
Durée : 2H
Documents autorisés : polycopié de cours, notes de cours imprimés ou manuscrits
Matériel autorisé, préciser : Auncun

SESSION DE RATTRAPAGE :
Type d'examen : écrit
Durée : 2H
Documents autorisés (ex : aucun, résumé feuille A4 manuscrite, dictionnaires, tous documents) : polycopié de cours, notes de cours imprimés ou manuscrits

Matériel autorisé, préciser : Aucun

N1=80%EXAM1+20%QUIZ/CC
N2=80%EXAM2+20%QUIZ/CC

Calendrier

Le cours est programmé dans ces filières :

  • Cursus ingénieur - Filière MMIS - Semestre 9
cf. l'emploi du temps 2023/2024

Informations complémentaires

Code de l'enseignement : 5MMACRV
Langue(s) d'enseignement : FR

Le cours est rattaché aux structures d'enseignement suivantes :

Vous pouvez retrouver ce cours dans la liste de tous les cours.

Bibliographie

Plus de references sont sur le site web : https://project.inria.fr/bigvisdata/

Y. Lecun, Cours au College de France, http://www.college-de-france.fr/site/yann-lecun/course-2015-2016.htm

H. Wang, A. Kläser, C. Schmid, L. C.-Lin, Action Recognition by Dense Trajectories, CVPR 2011

H. Jégou, M. Douze, C. Schmid, Hamming embedding and weak geometric consistency for large scale image search, ECCV 2008

G. Csurka, C Dance, L Fan, J Willamowski, C Bray, Visual categorization with bags of keypoints, ECCV Workshop 2004

J. Sivic and A. Zisserman, Video Google: A Text Retrieval Approach to Object Matching in Videos, ICCV 2003

D. Lowe, Distinctive image features from scale-invariant keypoints, IJCV 2004