Ensimag Rubrique Formation 2022

Gestion de données à grande échelle - 5MMGDGE7

  • Volumes horaires

    • CM 22.5
    • TP 13.5

    Crédits ECTS

    Crédits ECTS 3.0

Objectif(s)

La gestion des données et des informations est devenue un enjeu majeur pour notre société et source de nombreux défis informatiques et de recherche. Les données sont distribuées, omniprésentes et leur volume et hétérogénéité ne cessent d’augmenter. Nous créons 2.5 Exabytes de données par jour ! A l’heure du Big Data , l’enjeu est de maîtriser la gestion des masses de données et de permettre d’en tirer profit pour nos sociétés.
Objectif
Dans ce contexte, l’objectif de ce cours est d’étudier les principaux aspects de la gestion répartie des données et de leur analyse (data mining), en considérant l’utilisation de systèmes de gestion de données hétérogènes de « type » SQL et NoSQL.

L’hétérogénéité des données sera abordée selon divers angles dont l’intégration des sources et la persistance à travers l’approche de persistance « polyglotte ». On étudiera l’évaluation de requêtes déclaratives multi-sources ainsi que la programmation de requêtes et d’algorithmes d’analyse avec le paradigme Map-Reduce. Ce paradigme est particulièrement utilisé sur des architectures de type cloud ou cluster pour le traitement de larges collections de données.

Contact Vincent LEROY

Contenu(s)

Contenu

  • Conception de bases de données réparties.
  • Introduction à des approches NoSQL
    • Introduction à Hadoop
    • Approche de persistance hétérogène, polyglotte.
  • Evaluation et optimisation de requêtes réparties sur des sources SQL & NoSQL
    • Requêtes multi-sources relationnels
    • Utilisation de Map-Reduce et Hadoop
  • Duplication et cohérence des données pour sources SQL & NoSQL
  • Gestion transactionnelle en environnements répartis
  • ETL, Entrepôts de données et business intelligence
  • Principales techniques de Data Mining pour l’analyse de données persistants et streams


Prérequis

Niveau : Fondements des SGBD et administration des SGBD O-R.

Contrôle des connaissances

CONTRÔLE CONTINU :
Type d'évaluation (ex : TP, assiduité, participation) :

SESSION NORMALE :
Type d'examen (écrit, oral, examen sur machine) : écrit
Salle spécifique : non
Durée : 3h
Documents autorisés (ex : aucun, résumé feuille A4 manuscrite, dictionnaires, tous documents) :documents du cours
Documents interdits (ex : livres, tous documents) :livres
Matériel (ex : calculatrices):

  • matériel autorisé, préciser :
  • matériel interdit, préciser :
    Commentaires :

SESSION DE RATTRAPAGE :
Type d'examen (écrit, oral, examen sur machine) : écrit
Salle spécifique :non
Durée :3h
Documents autorisés (ex : aucun, résumé feuille A4 manuscrite, dictionnaires, tous documents) :documents du cours
Documents interdits (ex : livres, tous documents) : documents du cours
Matériel (ex : calculatrices):

  • matériel autorisé, préciser :
  • matériel interdit, préciser :
    Commentaires :
    Examen


Session 1: Pratique 40% + Examen 60%
Session 2: Note pratique maintenue + Examen session2 60%

Informations complémentaires

Cursus ingénieur->Filière ISI->Semestre 5