Accès à l'information : du web des données au web sémantique - 5MMAIWD7

Volumes horaires
- CM 27.0
- Projet -
- TD -
- Stage -
- TP -
- DS -
Crédits ECTS
Crédits ECTS 2.0

Objectif(s)

L'objectif de ce cours est de présenter les concepts, méthodes et algorithmes utilisés dans les systèmes d'accès à l'information sur le web. Avec la production massive de données sur la toile, La recherche d’information, autrefois vue comme un domaine de spécialité à l’intersection des techniques documentaires et de la science informatique, est devenue l’une des technologies majeures du 21eme siècle. Ce cours est structuré en trois parties :

- recherche d'information sur le web : comprendre les concepts sous-jacents aux moteurs de recherche textuels sur internet
- langage d'interrogation de graphes : connaître les outils théoriques et algorithmes pour interroger des données structurées sous forme d'arbres (telles que les pages web)
- web sémantique

Responsable(s)

Clovis GALIEZ, Danielle ZIEBELIN, Pierre GENEVES

Contenu(s)

Le cours aborde les thématiques suivantes, une thématique pouvant s'étendre sur plusieurs séances :

Partie I (6h, Danielle Ziebelin)
La première partie du cours, adresse essentiellement une connaissance
pratique du web sémantique et web des données dont l’objectif est de
fournir un cadre général qui permet l'échange, le partage et la
réutilisation de données entre applications au travers des entreprises
et des communautés d'utilisateurs. Le web sémantique cherche à
structurer de nouvelles connaissances en s’appuyant sur le web données
(Linked data). Le web des données cherche à intégrer et publier des
données structurées en les reliant entre elles et à permettre le partage
et la distribution de ces informations. Cette première partie de cours
se focalisera sur certaines des technologies standardisées par le W3C et
qui sont au coeur du web sémantique: RDF et SPARQL permettent l'échange
et l'interrogation des données, SKOS, RDFS et OWL offrent l'expressivité
nécessaire à la modélisation d'ontologies. La présentation en cours de
l’utilisation de ces différents langages sera complétée par des
exercices pratiques sur machine qui permettront aux étudiants de se
confronter directement et concrètement avec la mise oeuvre du web
sémantique.

Partie II (9h, Pierre Geneves)
1. Standards et données du web
2. Arbres et types
3. Requêtes d'arbres
4. Programmation statiquement typée avec les arbres
5. Fondements :
- automates d'arbres
- logiques d'arbres
6. Raisonnement logique sur les arbres
7. Applications au typage et à l'analyse statique

Partie III (12h, Clovis Galiez)
1. Pattern matching
2. Crawling
3. Indexation
4. Représentation efficace de documents
5. Représentation en sémantique latente
6. Apprentissage automatique de représentations
7. Structure de graphe du web et algorithme de ranking PageRank

TP : programmation complète d'un moteur de recherche pour Wikipedia.

Prérequis

Connaissances de base en algèbre, probabilités, langages, bases de données, programmation Python, algorithmique, complexité et apprentissage automatique.

Contrôle des connaissances

Evaluation : Projet (rendu du code et des résultats) + examen écrit (2h)

Rattrapage : Examen oral (exposé, soutenance, etc..) (20min)

SESSION NORMALE :
Type d'examen si présentiel : examen écrit sur papier ou sur QCM machine (2h) final, projet optionnel en bonus.
Documents autorisés : tous documents
Matériel interdit : tout appareil électronique communicant

Session 2:
Rattrapage possible sous forme d'oral (20 min), aucun document autorisé.
Matériel interdit : tout appareil électronique communicant

N1 = Exam final + points bonus projets
N2 = Exam rattrapage + points bonus projets