CanTAL : Formats et Chaînes de traitement de TAL
Objectif :
Il s’agit d’une part de gérer les difficultés courantes posés par les formats de données (interopérabilité par exemple) et la taille des jeux de données pour l’utilisation de modèles de Machine Learning. Nous illustrerons principalement ces problèmes de format sur des questions de reconnaissance d’entités nommées même si nous montrerons aussi d’autres cas d’application.
Organisateurs :
Yoann Dupont(Sorbonne Université),
Gaël Lejeune (Sorbonne Université),
Pedro Javier Ortiz Suárez (Sorbonne Université et INRIA),
Tian Tian (Département Informatique, IMT Atlantique)
Contact :
lettres-cantal-tuto@listes.sorbonne-universite.fr
Description du tutoriel :
Le tutoriel sera sous forme d’un TP où nous présenterons un « workflow » de base avec des outils clés en main (tels que Spacy) et comment l’adapter pour des besoins particuliers. Ces besoins pourront avoir été présentés en amont par les participants via le github du tutoriel : https://github.com/YoannDupont/taln2021tutorial
Outils utilisés :
– Données au Formats CONLL
– corpus17 de Simon Gabay et Alexandre Bartz, données du 17ème siècle (https://github.com/e-ditiones/CORPUS17)
– corpus CLEF-HIPE 2020, données du 19ème et du 20ème (https://github.com/impresso/CLEF-HIPE-2020/)
– un environement linux/mac OS est plus adapté pour ce tutoriel mais l’utilisation de windows est possible
– python3.X
– librairies Python : spacy / transformers
Public ciblé :
Tout collègue intéressé par le traitement de grands corpus et par les humanités numériques. Un minimum de connaissance en scripting Python est nécessaire. Pour le reste, le public visé est assez large que ce soit chez les masterants/doctorants, les jeunes collègues ou les collègues plus expérimentés
Durée :
une demi-journée