Training for the search for information - 5MMAIWD7

Number of hours
- Lectures 27.0
- Projects -
- Tutorials -
- Internship -
- Laboratory works -
- Written tests -
ECTS
ECTS 2.0

Goal(s)

The goal of these lectures is to present concepts, methods and algorithms used in information retrieval on the web. With the massive production of data on the web, information retrieval has turned from a niche domain at the intersection of documentalist techniques and computer science, to a major technology of the XXIst century.
These lectures are structured in 3 parts:

- semantic web
- language for graph querying (like web pages)
- information retrieval on the web: understand the concepts underlying textual search engines on the web

Responsible(s)

Clovis GALIEZ, Danielle ZIEBELIN, Pierre GENEVES

Content(s)

Le cours aborde les thématiques suivantes, une thématique pouvant s'étendre sur plusieurs séances :

Part I (6h, Danielle Ziebelin) Web semantics
La première partie du cours, adresse essentiellement une connaissance
pratique du web sémantique et web des données dont l’objectif est de
fournir un cadre général qui permet l'échange, le partage et la
réutilisation de données entre applications au travers des entreprises
et des communautés d'utilisateurs. Le web sémantique cherche à
structurer de nouvelles connaissances en s’appuyant sur le web données
(Linked data). Le web des données cherche à intégrer et publier des
données structurées en les reliant entre elles et à permettre le partage
et la distribution de ces informations. Cette première partie de cours
se focalisera sur certaines des technologies standardisées par le W3C et
qui sont au coeur du web sémantique: RDF et SPARQL permettent l'échange
et l'interrogation des données, SKOS, RDFS et OWL offrent l'expressivité
nécessaire à la modélisation d'ontologies. La présentation en cours de
l’utilisation de ces différents langages sera complétée par des
exercices pratiques sur machine qui permettront aux étudiants de se
confronter directement et concrètement avec la mise oeuvre du web
sémantique.

Part II (9h, Pierre Geneves)
1. Standards and web data
2. Trees and types
3. Tree requests
4. Static typing with trees
5. Foundations:
- tree automata
- tree logics
6. Logic reasonning on trees
7. Applications of typing and static analysis

Part III (12h, Clovis Galiez)
1. Pattern matching
2. Crawling
3. Indexation
4. Représentation efficace de documents
5. Représentation en sémantique latente
6. Apprentissage automatique de représentations
7. Structure de graphe du web et algorithme de ranking PageRank

Hands-on: programming a complete search engine for Wikipedia pages.

Prerequisites

Basic knowledge in algebra, probabilities, languages, databases, complexity and machine learning.

Test

Evaluation : Projet (rendu du code et des résultats) + examen écrit (2h)

Resit : Examen oral (exposé, soutenance, etc..) (20min)

Exam : written exam, project as a bonus (optional).

Calendar

The course exists in the following branches: