Programme

 

 

28 juin amphi Bernson amphi Perrin amphi Pasteur
9h00-12h30 DEFT 2021 – DÉfi Fouille de Texte
Cyril Grouin (LISN, CNRS), Gabriel Illouz
(LISN, Université Paris-Saclay), Natalia Grabar (STL, CNRS)
Programme de l’atelier : https://deft.lisn.upsaclay.fr/2021/
Extraction d’information collaborative multilingue
Patrick Constant (PERTIMM)
LLOD – Linguistic Linked Open Data
Gilles Sérasset (LIG, U Grenoble Alpes),
Thierry Declerck (DFKI, Allemagne)
12h30-14h00 Pause midi
14h00-17h30 DEFT 2021 – DÉfi Fouille de Texte
Cyril Grouin (LISN, CNRS), Gabriel Illouz
(LISN, Université Paris-Saclay), Natalia Grabar (STL, CNRS)
Extraction automatique d’arguments dans des textes
Patrick Saint-Dizier (Institut de Recherche en Informatique de Toulouse – IRIT), Mathilde Janier (Université Grenoble Alpes – UGA)
LLOD – Linguistic Linked Open Data
Gilles Sérasset (LIG, U Grenoble Alpes),
Thierry Declerck (DFKI, Allemagne)
17h30 Fin de la journée
29 juin amphi Bernson amphi Perrin amphi Pasteur
9h00-12h30 Recherche de motifs dans un corpus annoté à l’aide de l’outil GREW – MATCH
Bruno Guillaume et Guy Perrier (LORIA, 54506 Vandœuvre-lès-Nancy cedex, France)
CANTAL – Formats et ChAîNes de traitement de TAL
Yoann Dupont (Sorbonne Université, Paris),
Gaël Lejeune (Sorbonne Université, Paris), Pedro Javier Ortiz
Suárez (Sorbonne Université, Paris ; Équipe ALMAnaCH, Inria,
Paris), Tian Tian (Département Informatique, IMT Atlantique – UMR
CNRS 6285 Lab-STICC)
Relire des articles de recherche en TAL / Reviewing Natural Language Processing Research
K. Bretonnel Cohen (University of Colorado
School of Medicine, USA), Karën Fort (Sorbonne Université, EA
STIH, Paris, LORIA, Nancy), Margot Mieskes (University of Applied
Sciences, Darmstadt, Allemagne), Aurélie Névéol (Université
Paris-Saclay, CNRS, LISN, 91400, Orsay), Anna Rogers (University
of Copenhagen, Danemark)
12h30-14h00 Pause midi
14h00-17h30 Transformation d’annotations de corpus à l’aide de l’outil GREW
Bruno Guillaume et Guy Perrier (LORIA, 54506 Vandœuvre-lès-Nancy cedex, France)
X-COTE – Extraction de Contenus Textuels du Web
Adrien Barbaresi (BBAW, Berlin, Allemagne), Emmanuel Giguet (GREYC, Normandie Université, Caen, France), Gaël Lejeune (STIH, Sorbonne Université, Paris, France)
Relire des articles de recherche en TAL / Reviewing Natural Language Processing Research
K. Bretonnel Cohen (University of Colorado
School of Medicine, USA), Karën Fort (Sorbonne Université, EA
STIH, Paris, LORIA, Nancy), Margot Mieskes (University of Applied
Sciences, Darmstadt, Allemagne), Aurélie Névéol (Université
Paris-Saclay, CNRS, LISN, 91400, Orsay), Anna Rogers (University
of Copenhagen, Danemark)
17h30 Fin de la journée
30 juin amphi Bernson
9h00-9h15 Ouverture de la conférence TALN-RECITAL 2021
9h15-10h15 Présentation invitée
Pierre Zweigenbaum
titre : TAL dans le domaine biomédical : des connaissances spécialisées sont-elles encore nécessaires ?

présidente de la session : Natalia Grabar
Résumé : TBA
10h15-10h30 Pause café
amphi Bernson amphi Perrin
10h30-12h00 TAL médical
présidente de la session : Aurélie Névéol
Syntaxe
présidente de la session : Marie Candito
10h30-11h00 Extraction d’arguments basée sur les transformateurs pour des applications dans le domaine de la santé
Tobias Mayer, Elena Cabrio, Serena Villata
TALN
Extraction de fragments syntaxiques en français à partir d’une mesure d’autonomie basée sur l’entropie
Marine Courtin
RECITAL
11h00-11h30 La génération de textes artificiels en substitution ou en complément de données d’apprentissage
Vincent Claveau, Antoine Chaffin, Ewa Kijak
TALN
Analyse en dépendances du français avec des plongements contextualisés
Loïc Grobol, Benoit Crabbé
TALN
11h30-12h00 Simplification automatique de textes biomédicaux en français: lorsque des données précises de petite taille aident
Remi Cardon, Natalia Grabar
TALN
Intégration de tâches: étiquetage morpho-syntaxique, analyse syntaxique et analyse sémantique traités comme une tâche unique
Timothée Bernard
TALN
amphi Bernson
12h00-13h00 Prix de thèse de l’ATALA
président de la session : Alexis Nasr
13h00-14h00 Pause midi
amphi Bernson amphi Perrin
14h00-15h30 IE/QR/dialogue
présidente de la sessions : Béatrice Daille
Apprentissage automatique
président de la session : Guillaume Wisniewski
14h00-14h20 Open Information Extraction: Approche Supervisée et Syntaxique pour le Français
Massinissa Atmani, Mathieu Lafourcade
TALN
Un modèle Transformer Génératif Pré-entrainé pour le…. français
Antoine Simoulin, Benoit Crabbé
TALN
14h20-14h50 Améliorer un agent conversationnel : prendre en compte à la volée des retours utilisateurs
Maxime Arens
RECITAL
Auto-encodeurs variationnels : contrecarrer le problème de posterior collapse grâce à la régularisation du décodeur
Alban Petit, Caio Corro
TALN
14h50-15h10 Définition et détection des incohérences du système dans les dialogues orientés tâche
Léon-Paul Schaub, Vojtech Hudecek, Daniel Stancl, Ondrej Dusek, Patrick Paroubek
TALN
Méta-apprentissage : classification de messages en catégories émotionnelles inconnues en entraînement
Gaël Guibon, Matthieu Labeau, Hélène Flamein, Luce Lefeuvre, Chloé Clavel
TALN
15h10-15h30 Vers la production automatique de sous-titres adaptés à l’affichage
François Buet, François Yvon
TALN
Contribution d’informations syntaxiques aux capacités de généralisation compositionelle des modèles seq2seq convolutifs
Diana Nicoleta Popa, William N. Havard, Maximin Coavoux, Eric Gaussier, Laurent Besacier
TALN
15h30-16h00 Pause café
amphi Bernson amphi Perrin
16h00-17h20 Plongements lexicaux, représentation
président de la session : Maximin Coavoux
Langues anciennes et peu dotées
président de la session : Mathieu Dehouck
16h00-16h30 Biais de genre dans un système de traduction automatique neuronale : une étude préliminaire
Guillaume Wisniewski, Lichao Zhou, Nicolas Ballier, François Yvon
TALN
Évaluation de méthodes et d’outils pour la lemmatisation automatique du français médiéval
Cristina Holgado, Alexei Lavrentiev, Mathieu Constant
TALN
16h30-17h00 Plongements Interprétables pour la Détection de Biais Cachés
Tom Bourgeade, Philippe Muller, Tim Van de Cruys
TALN
Lemmatization of Historical Old Literary Finnish Texts in Modern Orthography
Mika Hämäläinen, Niko Partanen, Khalid Alnajjar
TALN
17h00-17h20 Transport Optimal pour le Changement Sémantique à partir de Plongements Contextualisés
Syrielle Montariol, Alexandre Allauzen
TALN
17h20 Fin de la journée
1er juillet amphi Bernson
9h00-10h00 Présentation invitée
Andre Martins
From Sparse Modeling to Sparse Communication in Natural Language Processing

président de la session : Pascal Denis
Abstract: Sparse modeling is an important, decades-old area in machine learning which aims to select and discover the relevant features that should be included in a model. In this talk I will describe how this toolbox can be extended and adapted for facilitating sparse communication in neural models for natural language processing. The building block is a family of sparse transformations called alpha-entmax, a drop-in replacement for softmax. Entmax transformations are differentiable and (unlike softmax) they can return sparse probability distributions, useful for interpretability.
In the first part, I will illustrate the use of alpha-entmax in attention mechanisms. These sparse transformations and their structured and continuous variants have been applied with success to machine translation, natural language inference, visual question answering, and other tasks. I will show how learning the alpha parameter can lead to « adaptively sparse transformers, » where each attention head learns to choose between focused or spread-out behavior. I will proceed to describe a framework for explainable NLP as a sparse communication problem between an explainer and a layperson, which takes advantage of the selection capabilities of sparse attention.In the second part, I will show how sparse transformations can also be used as a replacement for the cross-entropy loss, via the family of entmax losses. This leads to sparse sequence-to-sequence models, where beam search can be exact, and to language models that are natively sparse, eliminating the need for top-k and nucleus sampling. I will show applications in morphological tasks, machine translation, and text generation.This work was funded by the DeepSPIN ERC project (https://deep-spin.github.io).
10h00-10h20 Pause café
amphi Bernson amphi Perrin
10h20-12h00 Sémantique
président de la session : Sylvain Pogodalla
Ressources
président de la session : Thierry Hamon
10h20-10h50 Caractérisation des relations sémantiques entre termes multi-mots fondée sur l’analogie
Yizhe Wang, Béatrice Daille, Nabil Hathout
TALN
Tabouid: un jeu de langage et de culture générale généré à partir de Wikipédia
Timothée Bernard
TALN
10h50-11h20 Les lettres et la machine : un état de l’art en traduction littéraire automatique
Damien Hansen
RECITAL
Modéliser la perception des genres musicaux à travers différentes cultures à partir de ressources linguistiques
Elena V. Epure, Guillaume Salha-Galvan, Manuel Moussallam, Romain Hennequin
TALN
11h20-11h40 Exploration des relations sémantiques sous-jacentes aux plongements contextuels de mots
Olivier Ferret
TALN
Construire des ressources collaboratives pour les langues peu dotées: une modélisation orientée communauté
Elvis Mboning, Ornella Wandji
TALN
11h40-12h00 Revitalisation des langues autochtones via le prétraitement et la traduction automatique neuronale: le cas de l’inuktitut
Tan Le Ngoc, Fatiha Sadat
TALN
TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue
Jade Mekki, Delphine Battistelli, Nicolas Béchet, Gwénolé Lecorvé
TALN
amphi Bernson
12h00-12h30 Prix des meilleurs papiers de TALN-RECITAL 2021
Présidents de la session : Rémi Cardon, Amel Fraisse, Pascal Denis, Natalia Grabar
12h30-14h00 Pause midi
salle Rihour
14h00-15h30 Session poster/démo Enjeux liés à la détection de l’ironie (Samuel Laperle), RECITAL
Modification d’un modèle de liage d’entités nommées end-to-end par l’ajout d’embeddings contextuels (Valentin Carpentier), RECITAL
Etat de l’art en compression multi-phrases pour la synthèse de documents (Kévin Espasa), RECITAL
Traduction Assistée par Ordinateur des Langues des Signes: élaboration d’un premier prototype (Marion Kaczmarek, Alix Larroque), RECITAL
Adaptation de ressources en langue anglaise pour interroger des données tabulaires en français (Alexis Blandin), RECITAL
Revue de la littérature : entrepôts de données biomédicales et traitement automatique de la langue (Adrien Bazoge), RECITAL
Utilisation d’outils de TAL pour la compréhension des spécifications de validation de données (Arthur Remaud), RECITAL
Stratégie Multitâche pour la Classification Multiclasse (Houssam Akhmouch, Hamza Bouanani, Gaël Dias, Jose G Moreno), TALN
Formalisation de la relation entre les verbes imperfectifs et perfectifs en ukrainien (Olena Saint-Joanis, Max Silberztein), TALN
Intérêt des modèles de caractères pour la détection d’événements (Emanuela Boros, Romaric Besançon, Olivier Ferret, Brigitte Grau), TALN
Extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie dans un corpus métier (Camille Gosset, Mokhtar Boumedyen Billami, Mathieu Lafourcade, Christophe Bortolaso, Mustapha Derras), TALN
Prédire l’aspect linguistique en anglais au moyen de transformers (Eleni Metheniti, Tim van de Cruys, Nabil Hathout), TALN
Une étude des avis en ligne : généralisabilité d’un modèle d’évaluation (Hyun Jung Kang, Iris Eshkol-Taravella), TALN
Sifting French Tweets to Investigate the Impact of Covid-19 in Triggering Intense Anxiety (Mohamed Amine Romdhane, Elena Cabrio, Serena Villata), TALN
Outil Interactif et Évolutif pour l’Extraction d’Information dans des Documents Techniques (Thiziri Belkacem, Charles Teissèdre)démoSIDRES : A Novel Annotation Tool For The Automatic Detection of Semantic Entities (Julieta Murata, Rémy Carrette, Pierre Jourlin)démoGECko+: a Grammatical and Discourse Error Correction Tool (Eduardo Calò, Léo Jacqmin, Thibo Rosemplatt, Maxime Amblard, Miguel Couceiro, Ajinkya Kulkarni)démoACCOLÉ : Annotation Collaborative d’erreurs de traduction pour COrpus aLignÉs, multi-cibles, et Annotation d’Expressions Poly-lexicales (Emmanuelle Esperança-Rodier, Francis Brunet-Manquat)démoCorpus EN-Istex : un corpus d’articles scientifiques annoté manuellement en entités nommées (Enza Morale, Denis Maurel, Jeanne Villaneau, Jean-Yves Antoine), démo
15h30-16h00 Pause café
amphi Bernson
16h00-18h00 AG de l’ATALA
18h00 Fin de la journée
2 juillet amphi Bernson salle Grand’place
9h00-10h00 Table ronde Qualité
Village des entrepreneurs
Modérateur : Hugues de MazancourtLes mesures de qualité sont différents en recherche et dans le secteur industriel. Qu’apprendre des expériences d’évaluation dans ces deux domaines ?Christian Fluhr est un spécialiste du traitement automatique des langues en particulier appliquées à la recherche d’information depuis le début des années 70s. il a développé un des premiers taggers basé sur un apprentissage à partir d’un corpus étiqueté. Cela a permis de développer un moteur de recherche utilisant le TLN pour l’indexation comme pour les requêtess. Dans les années 90 il a dirigé le premier projet européen d’interrogation interlingue.
Il a participé dès le début aux évaluations du NIST pour les moteurs de recherche et dans le cadre de l’AUF a participé à la mise en place des premières évaluations du traitement du français. Aujourd’hui il est directeur scientifique de GEOLSemantics spécialisée dans la compréhension du langage naturel orienté par un besoin utilisateur.

Zheng Zhang is an AI Engineer in Schlumberger Embedded AI Lab since December 2019. He completed his Ph.D. in natural language processing (NLP) from LISN-CNRS (previous LIMSI-CNRS), Paris-Saclay University. His research interests lie in word embeddings learning, ranging from graph-based monolingual embeddings modeling to cross-lingual contextual embeddings mapping. Before that, he received an M.Sc. in Data & Knowledge from Telecom ParisTech and an engineer’s degree in computer science from Polytech, Paris-Saclay University. His current focus is on NLP applications and research in the energy industry.

 

De formation ingénieur logiciel à Sup Galilée, Olivier Hamon a débuté sa carrière en 2004 en tant qu’ingénieur de recherche puis chef de projet au sein de la société ELDA (Evaluations and Language resources Distribution Agency). Également titulaire d’un DEA en intelligence artificielle et optimisation combinatoire, il a obtenu en 2010 une thèse sur l’évaluation dans le traitement automatique des langues et son application à une architecture générique et pérenne, soutenue par ELDA et le Laboratoire d’Informatique de Paris-Nord (LIPN – Université Paris XIII). Il a participé a plusieurs projets nationaux et européens ayant pour cadre les technologies de la langue et leur évaluation. En 2014, Olivier Hamon intègre la société Syllabs en tant que CTO et responsable R&D. Il y supervise les différents projets de recherche, coordonne les équipes techniques et participe à la stratégie générale autour des technologies de génération automatique de textes (GAT) et de tagging de contenus.

Démo, poster, annonces du Village des entrepreneurs
10h00-11h00 Table ronde Faisabilité et Reproductibilité
Village des entrepreneurs
Modérateur : Antonio Balvet
Les résultats de recherche en TALN, issus du monde académique comme du monde industriel, sont transférés vers le secteur industriel sous différentes formes : essaimage, conseil, composants… Quelles contraintes, quels résultats ?Géraldine Damnati est chercheuse à Orange Labs (Lannion), dans l’équipe dédiée au Traitement Automatique du Langage de l’entité DATA&AI. Ses travaux concernent la compréhension automatique du langage écrit et oral avec différents domaines applicatifs (compréhension en contexte d’interaction, analyse de verbatims de remontées client, extraction d’information dans des documents, exploration de contenus multimedia). Une composante significative des activités est le transfert technologique des travaux issus de la Recherche vers les projets opérationnels pour l’intégration de modèles dans des chaînes d’analyse et des outils industriels.
Elle est par ailleurs impliquée dans la communauté en tant que membre du bureau de l’ATALA, Association pour le Traitement Automatique du Langage (vice-présidente en charge des relations avec les entreprises) et est impliquée dans le GDR TAL du CNRS en tant que co-animatrice du Club des Partenaires.
Thierry Poibeau (LATTICE): Le laboratoire Lattice est un laboratoire spécialisé en linguistique et traitement automatique des langues. Thierry Poibeau y travaille en TAL et humanités numériques. Il est également membre du centre 3IA Prairie (Paris Artificial Intelligence Research Institute).
 

Charles Teissedre est spécialiste en traitement automatique des langues. Titulaire d’une thèse sur la recherche d’informations temporelles dans les textes (prix de thèse de l’ATALA en 2013), il a participé à plusieurs projets nationaux et européens autour de l’ingénierie des langues (extraction d’information dans les textes, analyse d’opinion, systèmes de dialogue apprenants, etc.). En 2019, il a intégré l’entreprise Synapse Développement en tant que Directeur Scientifique et coordonne au sein de l’entreprise la conduite des projets stratégiques d’innovation.

Démo, poster, annonces du Village des entrepreneurs
11h00-12h00 Table ronde Licences
Village des entrepreneurs
Modérateur : Alain Couillault
Le TALN nécessite des données volumineuses et de qualité que ce soit pour la recherche ou pour l’industrie. La question des licences est centrale pour mettre à disposition largement les données tout en respectant les droits des producteurs. Elle est également centrale pour la diffusion du code informatique, qu’il soit propriétaire ou open source.Maxime Amblard est maître de conférences en informatique au Loria et à l’IDMC à l’Université de Lorraine. Il est responsable du master en Traitement Automatique des Langues et responsable de l’action Exploratoire Inria ODiM sur l’utilisation des méthodes du TAL pour l’identification de spécificités linguistiques dans les pathologies mentales. Il est actif à l’international sur les question d’éthique dans le traitement automatique des langues (ACL, NAACL, etc.) et membre fondateur du blog éthique et TAL. Il est aussi à l’origine de l’atelier ETeRNAL sur l’éthique en TAL, organisé dans le cadre de TALN.
Aurélie Névéol est chargée de Recherche au CNRS (LISN, Université Paris Saclay). Après un DEA de linguistique en 2002 et un doctorat en informatique en 2005, elle a effectué un séjour post-doctoral à la National Library of Medicine aux Etats-Unis.
Ses travaux de recherche portent sur le traitement automatique de la langue biomédicale et en particulier pour les langues autres que l’anglais. Elle a notament contribué au développement de corpus biomédicaux annotés en entités nommées, attributs et relations sur lesquels les modèles de langue peuvent s’appuyer pour l’extraction d’informations à partir de textes cliniques non structurés, qui peuvent ensuite être utilisés pour des applications en épidémiologie et santé publique. Elle a également contribué à l’évaluation des méthodes de TAL grâce au projet H2020 MIROR et à l’organisation de campagnes d’évaluation internationales telles que CLEF eHealth et la tâche biomédicale de WMT.
 

Khalid Choukri, Hélène Mazo et Valérie Mapelli (ELDA): ELDA, l’Agence pour la Distribution des Ressources Linguistiques et l’Evaluation (en anglais : Evaluations and Language Resources Distribution Agency) est l’entité opérationnelle de l’association ELRA (European Language Resources Association). Créée en février 1995 pour prendre en charge et mettre en œuvre les activités d’ELRA, l’agence a pour but d’identifier, classer, collecter, valider et produire les ressources linguistiques utiles à la communauté scientifique dans le domaine des technologies de la langue. En pratique, c’est ELDA qui s’occupe de la distribution des ressources linguistiques, ce qui recouvre les aspects juridiques, commerciaux et techniques. La participation à des initiatives européennes telles que ELRC, ELG ou MAPA fait aussi partie des activités d’ELDA. Khalid Choukri, PDG d’ELDA et Secrétaire général d’ELRA supervise les activités menées par une douzaine de salariés, travaillant à temps complet et partiel.

 

Sylvain Karpf (Université de Lille) travaille depuis mi-2019 au sein de la Direction de la Valorisation de la Recherche de l’Université de Lille. Dans le cadre de ses missions, il s’occupe d’accompagnement de projets de startups et de valorisation de la recherche dans le domaine du numérique et du logiciel. Il conseille ainsi les chercheurs pour tout ce qui concerne la propriété intellectuelle et la diffusion des logiciels, en particulier via des licences opensource. Auparavant, il a été pendant 13 ans responsable transfert et innovation du centre Inria Lille Nord Europe, où il a accompagné les équipes de recherche dans leurs actions de transfert, notamment via la création de startups, la diffusion de logiciels sous licences opensource ou propriétaires, ainsi que le montage de consortiums OpenSource.

Démo, poster, annonces du Village des entrepreneurs
12h00-12h15 Discussion générale des tables rondes
Village des entrepreneurs
Démo, poster, annonces du Village des entrepreneurs
amphi Bernson
12h15-12h45 Clôture de la conférence TALN-RECITAL 2021

 


 

Les commentaires sont clos.