X-COTE – TALN-RÉCITAL 2021

X-COTE – Extraction de Contenus Textuels du Web

Objectif :

Ce tutoriel vise à évaluer un large éventail d’outils consacrés à l’extraction de contenus textuels dans des documents html, tâche complexe qui implique la détection de sections pertinentes et la conversion vers des formats adaptés.

Organisateurs :

Adrien Barbaresi (Académie des Sciences Berlin-Brandebourg — BBAW, Berlin),

Emmanuel Giguet (GREYC, Normandie Université, Caen)

Gaël Lejeune (STIH, Sorbonne Université, Paris).

Contact:

gael.lejeune@sorbonne-universite.fr

Description du tutoriel :

Nous aborderons d’une part l’utilisation directe des outils à partir de documents html déjà téléchargés.

Puis nous verrons comment faire le lien avec des listes d’URLs cibles (connues ou non) et comment effectuer une évaluation (supervisée ou non) des outils disponibles afin de pouvoir sélectionner le plus adapté.

Outils utilisés :

L’installation de python3 est requise

Nous utiliserons différents outils état de l’art du domaine. Ces outils peuvent d’ores et déjà être installés et testés grâce au dépôt logiciel waddle : https://github.com/rundimeco/waddle/

Public ciblé :

Nous nous adressons à un public débutant (études) ou confirmé (recherche) qui désire travailler sur des données textuelles tirées du web, pour des besoins ciblés (veille, extraction d’information, constitution de lexique) ou pour la construction de bases de données et corpus en général.

Durée :

une demi-journée