LLOD

Linguistic Linked Open Data

Objectifs :

Comprendre ce qu’est le Linguistic Linked Open Data Cloud (LLOD), produire des ressources, exploiter des ressources existantes, aligner différentes ressources complémentaires.

Intervenants :

Gilles Sérasset — Equipe GETALP, LIG, université Grenoble Alpes, France

Thierry Declerck — DFKI GmbH, Allemagne

Contact

Gilles Sérasset : Gilles.Serasset@imag.fr

Descriptif du tutoriel :

Le “Linguistic Linked Open Data (LLOD)” est un moyen de créer, partager et ré-utiliser des ressources langagières dans le Web des Données qui prend de l’ampleur dans le domaine des technologies langagières et du traitement des langues. De plus en plus de chercheurs fournissent des ressources linguistiques (corpus annotés, dictionnaires, bases de données et ontologies) dans des formats du LLOD qui permettent leur usage dans le cadre du Web Sémantique.

Contenu du tutoriel :

L’objectif de ce tutoriel est de présenter les technologies du Web Sémantique, leur usage et leur utilité pour les données linguistiques. Des présentations et activités pratiques permettront une introduction aux formalismes et outils du Web Sémantique et leur application aux resources langagières, pour leur représentation et leur exploitation (langages de requêtes et capacités d’inférences).

Déroulement :

Présentations

Contexte

Web Sémantique et données liées ouvertes (Linked Open Data)

Ontologies (RDF, OWL, RDF-S, etc.)

Mécanismes de requêtes (SPARQL)

Métadonnées (DCAT, VOID, etc.)

Applications aux données linguistiques

Représenter un dictionnaire : Lemon-Ontolex + extensions

Annoter un corpus et données liées

Annotations langagières

Activités pratiques

Créer des données (RDF, format Turtle)

Interroger des données existantes (SPARQL)

Certains de ces éléments seront abordés très brièvement, tandis que d’autres feront l’objet d’études de cas et d’activités pratiques plus détaillées. Nous nous adapterons au niveau de compétence des utilisateurs inscrits et si cela s’avère nécessaire, nous proposerons différents niveaux d’activités pratiques.

Outils utilisés :

Comprendre, lire et modéliser une ontologie : Protégé

Construction des données en utilisant des ontologies existantes (Lexinfo, lexvo, Olia, Ontolex notamment) au format Turtle (un format RDF simple et lisible) : utilisation d’un éditeur de texte (au choix), avec éventuellement un plugin de prise en charge de la syntaxe turtle ;

Interroger des données existantes en SPARQL : Fuseki (installé en standalone sur une machine locale, éventuellement requêtes sur des points d’accès public sur le web, nécessité d’accès internet)

Public ciblé :

Ce tutoriel s’adresse à tout acteur du TALN, de profil linguiste-informaticien ou informaticien-linguiste, avec une connaissance de base de ressources linguistiques existantes (lexiques, corpus annotés, etc.) et une connaissance de base des outils informatiques (éditeur de texte, langage de description ou programmation). Qu’il soit étudiant ou chercheur confirmé, avec ou sans expérience dans les approches du web sémantique.

L’objectif n’est pas d’atteindre une maîtrise technique d’outils ou formalismes, mais bien de comprendre comment ces approches permettent une interopérabilité des ressources linguistiques et pourquoi cette interopérabilité est une nécessité pour le domaine.

Durée :

2 demi-journées

Présentation des intervenants :

Gilles Sérasset est enseignant-chercheur à l’Université Grenoble Alpes. Il s’intéresse à la problématique de la représentation des données lexicales multilingues depuis 1991 et a construit la resource lexicale DBnary qui extrait, depuis 2012, les données lexicales de 21 éditions du Wiktionnaire pour les rendre explicites et disponibles dans le LLOD Cloud. Cette resource a remporté le Monnet Challenge en 2012 et était 1er ex-aequo du challenge Linked Data in Linguistics en 2014.

Thierry Declerck a étudié la Philosophie à l’Université de Bruxelles et la Linguistique Informatique à l’Université de Tübingen. Il travaille au Multilinguality and Language Technology (MLT) lab au Centre de recherche allemand pour l’intelligence artificielle (DFKI) depuis 1996. Il dirige actuellement la contribution du DFKI au projet H2020 « Prêt-à-LLOD » (http://www.pret-a-llod.eu/) et il est le Scientific Communication Manager de l’action COST CA18209 – European network for Web-centred linguistic data science (NexusLinguarum)

Ce tutoriel sera réalisé dans le cadre du projet NexusLinguarum, European network for Web-centred linguistic data science (CA18209 COST Action).

Les commentaires sont clos.