Number of hours
- Lectures 27.0
- Projects -
- Tutorials -
- Internship -
- Laboratory works -
- Written tests -
ECTS 2.0
The goal of these lectures is to present concepts, methods and algorithms used in information retrieval on the web. With the massive production of data on the web, information retrieval has turned from a niche domain at the intersection of documentalist techniques and computer science, to a major technology of the XXIst century.
These lectures are structured in 3 parts:
- semantic web
- language for graph querying (like web pages)
- information retrieval on the web: understand the concepts underlying textual search engines on the web
Pierre GENEVES, Danielle ZIEBELIN, Clovis GALIEZ
Le cours aborde les thématiques suivantes, une thématique pouvant s'étendre sur plusieurs séances :
Part I (6h, Danielle Ziebelin) Web semantics
La première partie du cours, adresse essentiellement une connaissance
pratique du web sémantique et web des données dont l’objectif est de
fournir un cadre général qui permet l'échange, le partage et la
réutilisation de données entre applications au travers des entreprises
et des communautés d'utilisateurs. Le web sémantique cherche à
structurer de nouvelles connaissances en s’appuyant sur le web données
(Linked data). Le web des données cherche à intégrer et publier des
données structurées en les reliant entre elles et à permettre le partage
et la distribution de ces informations. Cette première partie de cours
se focalisera sur certaines des technologies standardisées par le W3C et
qui sont au coeur du web sémantique: RDF et SPARQL permettent l'échange
et l'interrogation des données, SKOS, RDFS et OWL offrent l'expressivité
nécessaire à la modélisation d'ontologies. La présentation en cours de
l’utilisation de ces différents langages sera complétée par des
exercices pratiques sur machine qui permettront aux étudiants de se
confronter directement et concrètement avec la mise oeuvre du web
Part II (9h, Pierre Geneves)
1. Standards and web data
2. Trees and types
3. Tree requests
4. Static typing with trees
5. Foundations:
- tree automata
- tree logics
6. Logic reasonning on trees
7. Applications of typing and static analysis
Part III (12h, Clovis Galiez)
1. Pattern matching
2. Crawling
3. Indexation
4. Représentation efficace de documents
5. Représentation en sémantique latente
6. Apprentissage automatique de représentations
7. Structure de graphe du web et algorithme de ranking PageRank
Hands-on: programming a complete search engine for Wikipedia pages.
PrerequisitesBasic knowledge in algebra, probabilities, languages, databases, complexity and machine learning.
Exam : written exam, project as a bonus (optional).
Exam in case of lockdown : homework, project as a bonus (optional).
N1 = Exam final + points bonus projets
N2 = Exam rattrapage +points bonus projets
