Ensimag Rubrique Formation 2022

Training for the search for information - 5MMAIWD7

  • Number of hours

    • Lectures 27.0
    • Projects -
    • Tutorials -
    • Internship -
    • Laboratory works -
    • Written tests -

    ECTS

    ECTS 2.0

Goal(s)

The goal of these lectures is to present concepts, methods and algorithms used in information retrieval on the web. With the massive production of data on the web, information retrieval has turned from a niche domain at the intersection of documentalist techniques and computer science, to a major technology of the XXIst century.
These lectures are structured in 3 parts:

- semantic web
- language for graph querying (like web pages)
- information retrieval on the web: understand the concepts underlying textual search engines on the web

Responsible(s)

Pierre GENEVES, Danielle ZIEBELIN, Clovis GALIEZ

Content(s)

Le cours aborde les thématiques suivantes, une thématique pouvant s'étendre sur plusieurs séances :

Part I (6h, Danielle Ziebelin) Web semantics
La première partie du cours, adresse essentiellement une connaissance
pratique du web sémantique et web des données dont l’objectif est de
fournir un cadre général qui permet l'échange, le partage et la
réutilisation de données entre applications au travers des entreprises
et des communautés d'utilisateurs. Le web sémantique cherche à
structurer de nouvelles connaissances en s’appuyant sur le web données
(Linked data). Le web des données cherche à intégrer et publier des
données structurées en les reliant entre elles et à permettre le partage
et la distribution de ces informations. Cette première partie de cours
se focalisera sur certaines des technologies standardisées par le W3C et
qui sont au coeur du web sémantique: RDF et SPARQL permettent l'échange
et l'interrogation des données, SKOS, RDFS et OWL offrent l'expressivité
nécessaire à la modélisation d'ontologies. La présentation en cours de
l’utilisation de ces différents langages sera complétée par des
exercices pratiques sur machine qui permettront aux étudiants de se
confronter directement et concrètement avec la mise oeuvre du web
sémantique.

Part II (9h, Pierre Geneves)
1. Standards and web data
2. Trees and types
3. Tree requests
4. Static typing with trees
5. Foundations:
- tree automata
- tree logics
6. Logic reasonning on trees
7. Applications of typing and static analysis

Part III (12h, Clovis Galiez)
1. Pattern matching
2. Crawling
3. Indexation
4. Représentation efficace de documents
5. Représentation en sémantique latente
6. Apprentissage automatique de représentations
7. Structure de graphe du web et algorithme de ranking PageRank

Hands-on: programming a complete search engine for Wikipedia pages.

Prerequisites

Basic knowledge in algebra, probabilities, languages, databases, complexity and machine learning.

Test

Exam : written exam, project as a bonus (optional).
Exam in case of lockdown : homework, project as a bonus (optional).

N1 = Exam final + points bonus projets
N2 = Exam rattrapage +points bonus projets

Calendar

The course exists in the following branches:

see the course schedule for 2023-2024

Additional Information

Course ID : 5MMAIWD7
Course language(s): FR

The course is attached to the following structures:

You can find this course among all other courses.