Ensimag Rubrique Formation 2022

Accès à l'information : du web des données au web sémantique - 5MMAIWD7

  • Volumes horaires

    • CM 27.0
    • Projet -
    • TD -
    • Stage -
    • TP -
    • DS -

    Crédits ECTS

    Crédits ECTS 2.0

Objectif(s)

L'objectif de ce cours est de présenter les concepts, méthodes et algorithmes utilisés dans les systèmes d'accès à l'information sur le web. Avec la production massive de données sur la toile, La recherche d’information, autrefois vue comme un domaine de spécialité à l’intersection des techniques documentaires et de la science informatique, est devenue l’une des technologies majeures du 21eme siècle. Ce cours est structuré en trois parties :

- recherche d'information sur le web : comprendre les concepts sous-jacents aux moteurs de recherche textuels sur internet
- langage d'interrogation de graphes : connaître les outils théoriques et algorithmes pour interroger des données structurées sous forme d'arbres (telles que les pages web)
- web sémantique

Responsable(s)

Pierre GENEVES, Danielle ZIEBELIN, Clovis GALIEZ

Contenu(s)

Le cours aborde les thématiques suivantes, une thématique pouvant s'étendre sur plusieurs séances :

Partie I (6h, Danielle Ziebelin)
La première partie du cours, adresse essentiellement une connaissance
pratique du web sémantique et web des données dont l’objectif est de
fournir un cadre général qui permet l'échange, le partage et la
réutilisation de données entre applications au travers des entreprises
et des communautés d'utilisateurs. Le web sémantique cherche à
structurer de nouvelles connaissances en s’appuyant sur le web données
(Linked data). Le web des données cherche à intégrer et publier des
données structurées en les reliant entre elles et à permettre le partage
et la distribution de ces informations. Cette première partie de cours
se focalisera sur certaines des technologies standardisées par le W3C et
qui sont au coeur du web sémantique: RDF et SPARQL permettent l'échange
et l'interrogation des données, SKOS, RDFS et OWL offrent l'expressivité
nécessaire à la modélisation d'ontologies. La présentation en cours de
l’utilisation de ces différents langages sera complétée par des
exercices pratiques sur machine qui permettront aux étudiants de se
confronter directement et concrètement avec la mise oeuvre du web
sémantique.

Partie II (9h, Pierre Geneves)
1. Standards et données du web
2. Arbres et types
3. Requêtes d'arbres
4. Programmation statiquement typée avec les arbres
5. Fondements :
- automates d'arbres
- logiques d'arbres
6. Raisonnement logique sur les arbres
7. Applications au typage et à l'analyse statique

Partie III (12h, Clovis Galiez)
1. Pattern matching
2. Crawling
3. Indexation
4. Représentation efficace de documents
5. Représentation en sémantique latente
6. Apprentissage automatique de représentations
7. Structure de graphe du web et algorithme de ranking PageRank

TP : programmation complète d'un moteur de recherche pour Wikipedia.

Prérequis

Connaissances de base en algèbre, probabilités, langages, bases de données, programmation Python, algorithmique, complexité et apprentissage automatique.

Contrôle des connaissances

SESSION NORMALE :
Type d'examen si présentiel : examen écrit (2h) final, projet optionnel en bonus.
Type d'examen si distanciel : devoir à la maison, projet optionnel en bonus.
Rattrapage possible sous forme d'oral (30 min).
Documents autorisés : tous documents
Matériel interdit : tout appareil électronique communicant

N1 = Exam final + points bonus projets
N2 = Exam rattrapage +points bonus projets

Calendrier

Le cours est programmé dans ces filières :

cf. l'emploi du temps 2023/2024

Informations complémentaires

Code de l'enseignement : 5MMAIWD7
Langue(s) d'enseignement : FR

Le cours est rattaché aux structures d'enseignement suivantes :

Vous pouvez retrouver ce cours dans la liste de tous les cours.