28 juin | amphi Bernson | amphi Perrin | amphi Pasteur |
9h00-12h30 | DEFT 2021 – DÉfi Fouille de Texte Cyril Grouin (LISN, CNRS), Gabriel Illouz (LISN, Université Paris-Saclay), Natalia Grabar (STL, CNRS) Programme de l’atelier : https://deft.lisn.upsaclay.fr/2021/ |
Extraction d’information collaborative multilingue Patrick Constant (PERTIMM) |
LLOD – Linguistic Linked Open Data Gilles Sérasset (LIG, U Grenoble Alpes), Thierry Declerck (DFKI, Allemagne) |
12h30-14h00 | Pause midi | ||
14h00-17h30 | DEFT 2021 – DÉfi Fouille de Texte Cyril Grouin (LISN, CNRS), Gabriel Illouz (LISN, Université Paris-Saclay), Natalia Grabar (STL, CNRS) |
Extraction automatique d’arguments dans des textes Patrick Saint-Dizier (Institut de Recherche en Informatique de Toulouse – IRIT), Mathilde Janier (Université Grenoble Alpes – UGA) |
LLOD – Linguistic Linked Open Data Gilles Sérasset (LIG, U Grenoble Alpes), Thierry Declerck (DFKI, Allemagne) |
17h30 | Fin de la journée | ||
29 juin | amphi Bernson | amphi Perrin | amphi Pasteur |
9h00-12h30 | Recherche de motifs dans un corpus annoté à l’aide de l’outil GREW – MATCH Bruno Guillaume et Guy Perrier (LORIA, 54506 Vandœuvre-lès-Nancy cedex, France) |
CANTAL – Formats et ChAîNes de traitement de TAL Yoann Dupont (Sorbonne Université, Paris), Gaël Lejeune (Sorbonne Université, Paris), Pedro Javier Ortiz Suárez (Sorbonne Université, Paris ; Équipe ALMAnaCH, Inria, Paris), Tian Tian (Département Informatique, IMT Atlantique – UMR CNRS 6285 Lab-STICC) |
Relire des articles de recherche en TAL / Reviewing Natural Language Processing Research K. Bretonnel Cohen (University of Colorado School of Medicine, USA), Karën Fort (Sorbonne Université, EA STIH, Paris, LORIA, Nancy), Margot Mieskes (University of Applied Sciences, Darmstadt, Allemagne), Aurélie Névéol (Université Paris-Saclay, CNRS, LISN, 91400, Orsay), Anna Rogers (University of Copenhagen, Danemark) |
12h30-14h00 | Pause midi | ||
14h00-17h30 | Transformation d’annotations de corpus à l’aide de l’outil GREW Bruno Guillaume et Guy Perrier (LORIA, 54506 Vandœuvre-lès-Nancy cedex, France) |
X-COTE – Extraction de Contenus Textuels du Web Adrien Barbaresi (BBAW, Berlin, Allemagne), Emmanuel Giguet (GREYC, Normandie Université, Caen, France), Gaël Lejeune (STIH, Sorbonne Université, Paris, France) |
Relire des articles de recherche en TAL / Reviewing Natural Language Processing Research K. Bretonnel Cohen (University of Colorado School of Medicine, USA), Karën Fort (Sorbonne Université, EA STIH, Paris, LORIA, Nancy), Margot Mieskes (University of Applied Sciences, Darmstadt, Allemagne), Aurélie Névéol (Université Paris-Saclay, CNRS, LISN, 91400, Orsay), Anna Rogers (University of Copenhagen, Danemark) |
17h30 | Fin de la journée | ||
30 juin | amphi Bernson | |
9h00-9h15 | Ouverture de la conférence TALN-RECITAL 2021 | |
9h15-10h15 | Présentation invitée Pierre Zweigenbaum titre : TAL dans le domaine biomédical : des connaissances spécialisées sont-elles encore nécessaires ? présidente de la session : Natalia Grabar |
Résumé : TBA |
10h15-10h30 | Pause café | |
amphi Bernson | amphi Perrin | |
10h30-12h00 | TAL médical présidente de la session : Aurélie Névéol |
Syntaxe présidente de la session : Marie Candito |
10h30-11h00 | Extraction d’arguments basée sur les transformateurs pour des applications dans le domaine de la santé Tobias Mayer, Elena Cabrio, Serena Villata TALN |
Extraction de fragments syntaxiques en français à partir d’une mesure d’autonomie basée sur l’entropie Marine Courtin RECITAL |
11h00-11h30 | La génération de textes artificiels en substitution ou en complément de données d’apprentissage Vincent Claveau, Antoine Chaffin, Ewa Kijak TALN |
Analyse en dépendances du français avec des plongements contextualisés Loïc Grobol, Benoit Crabbé TALN |
11h30-12h00 | Simplification automatique de textes biomédicaux en français: lorsque des données précises de petite taille aident Remi Cardon, Natalia Grabar TALN |
Intégration de tâches: étiquetage morpho-syntaxique, analyse syntaxique et analyse sémantique traités comme une tâche unique Timothée Bernard TALN |
amphi Bernson | ||
12h00-13h00 | Prix de thèse de l’ATALA président de la session : Alexis Nasr |
|
13h00-14h00 | Pause midi | |
amphi Bernson | amphi Perrin | |
14h00-15h30 | IE/QR/dialogue présidente de la sessions : Béatrice Daille |
Apprentissage automatique président de la session : Guillaume Wisniewski |
14h00-14h20 | Open Information Extraction: Approche Supervisée et Syntaxique pour le Français Massinissa Atmani, Mathieu Lafourcade TALN |
Un modèle Transformer Génératif Pré-entrainé pour le…. français Antoine Simoulin, Benoit Crabbé TALN |
14h20-14h50 | Améliorer un agent conversationnel : prendre en compte à la volée des retours utilisateurs Maxime Arens RECITAL |
Auto-encodeurs variationnels : contrecarrer le problème de posterior collapse grâce à la régularisation du décodeur Alban Petit, Caio Corro TALN |
14h50-15h10 | Définition et détection des incohérences du système dans les dialogues orientés tâche Léon-Paul Schaub, Vojtech Hudecek, Daniel Stancl, Ondrej Dusek, Patrick Paroubek TALN |
Méta-apprentissage : classification de messages en catégories émotionnelles inconnues en entraînement Gaël Guibon, Matthieu Labeau, Hélène Flamein, Luce Lefeuvre, Chloé Clavel TALN |
15h10-15h30 | Vers la production automatique de sous-titres adaptés à l’affichage François Buet, François Yvon TALN |
Contribution d’informations syntaxiques aux capacités de généralisation compositionelle des modèles seq2seq convolutifs Diana Nicoleta Popa, William N. Havard, Maximin Coavoux, Eric Gaussier, Laurent Besacier TALN |
15h30-16h00 | Pause café | |
amphi Bernson | amphi Perrin | |
16h00-17h20 | Plongements lexicaux, représentation président de la session : Maximin Coavoux |
Langues anciennes et peu dotées président de la session : Mathieu Dehouck |
16h00-16h30 | Biais de genre dans un système de traduction automatique neuronale : une étude préliminaire Guillaume Wisniewski, Lichao Zhou, Nicolas Ballier, François Yvon TALN |
Évaluation de méthodes et d’outils pour la lemmatisation automatique du français médiéval Cristina Holgado, Alexei Lavrentiev, Mathieu Constant TALN |
16h30-17h00 | Plongements Interprétables pour la Détection de Biais Cachés Tom Bourgeade, Philippe Muller, Tim Van de Cruys TALN |
Lemmatization of Historical Old Literary Finnish Texts in Modern Orthography Mika Hämäläinen, Niko Partanen, Khalid Alnajjar TALN |
17h00-17h20 | Transport Optimal pour le Changement Sémantique à partir de Plongements Contextualisés Syrielle Montariol, Alexandre Allauzen TALN |
|
17h20 | Fin de la journée | |
1er juillet | amphi Bernson | |
9h00-10h00 | Présentation invitée Andre Martins From Sparse Modeling to Sparse Communication in Natural Language Processing président de la session : Pascal Denis |
Abstract: Sparse modeling is an important, decades-old area in machine learning which aims to select and discover the relevant features that should be included in a model. In this talk I will describe how this toolbox can be extended and adapted for facilitating sparse communication in neural models for natural language processing. The building block is a family of sparse transformations called alpha-entmax, a drop-in replacement for softmax. Entmax transformations are differentiable and (unlike softmax) they can return sparse probability distributions, useful for interpretability. In the first part, I will illustrate the use of alpha-entmax in attention mechanisms. These sparse transformations and their structured and continuous variants have been applied with success to machine translation, natural language inference, visual question answering, and other tasks. I will show how learning the alpha parameter can lead to « adaptively sparse transformers, » where each attention head learns to choose between focused or spread-out behavior. I will proceed to describe a framework for explainable NLP as a sparse communication problem between an explainer and a layperson, which takes advantage of the selection capabilities of sparse attention.In the second part, I will show how sparse transformations can also be used as a replacement for the cross-entropy loss, via the family of entmax losses. This leads to sparse sequence-to-sequence models, where beam search can be exact, and to language models that are natively sparse, eliminating the need for top-k and nucleus sampling. I will show applications in morphological tasks, machine translation, and text generation.This work was funded by the DeepSPIN ERC project (https://deep-spin.github.io). |
10h00-10h20 | Pause café | |
amphi Bernson | amphi Perrin | |
10h20-12h00 | Sémantique président de la session : Sylvain Pogodalla |
Ressources président de la session : Thierry Hamon |
10h20-10h50 | Caractérisation des relations sémantiques entre termes multi-mots fondée sur l’analogie Yizhe Wang, Béatrice Daille, Nabil Hathout TALN |
Tabouid: un jeu de langage et de culture générale généré à partir de Wikipédia Timothée Bernard TALN |
10h50-11h20 | Les lettres et la machine : un état de l’art en traduction littéraire automatique Damien Hansen RECITAL |
Modéliser la perception des genres musicaux à travers différentes cultures à partir de ressources linguistiques Elena V. Epure, Guillaume Salha-Galvan, Manuel Moussallam, Romain Hennequin TALN |
11h20-11h40 | Exploration des relations sémantiques sous-jacentes aux plongements contextuels de mots Olivier Ferret TALN |
Construire des ressources collaboratives pour les langues peu dotées: une modélisation orientée communauté Elvis Mboning, Ornella Wandji TALN |
11h40-12h00 | Revitalisation des langues autochtones via le prétraitement et la traduction automatique neuronale: le cas de l’inuktitut Tan Le Ngoc, Fatiha Sadat TALN |
TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue Jade Mekki, Delphine Battistelli, Nicolas Béchet, Gwénolé Lecorvé TALN |
amphi Bernson | ||
12h00-12h30 | Prix des meilleurs papiers de TALN-RECITAL 2021 Présidents de la session : Rémi Cardon, Amel Fraisse, Pascal Denis, Natalia Grabar |
|
12h30-14h00 | Pause midi | |
salle Rihour | ||
14h00-15h30 | Session poster/démo | Enjeux liés à la détection de l’ironie (Samuel Laperle), RECITAL Modification d’un modèle de liage d’entités nommées end-to-end par l’ajout d’embeddings contextuels (Valentin Carpentier), RECITAL Etat de l’art en compression multi-phrases pour la synthèse de documents (Kévin Espasa), RECITAL Traduction Assistée par Ordinateur des Langues des Signes: élaboration d’un premier prototype (Marion Kaczmarek, Alix Larroque), RECITAL Adaptation de ressources en langue anglaise pour interroger des données tabulaires en français (Alexis Blandin), RECITAL Revue de la littérature : entrepôts de données biomédicales et traitement automatique de la langue (Adrien Bazoge), RECITAL Utilisation d’outils de TAL pour la compréhension des spécifications de validation de données (Arthur Remaud), RECITAL Stratégie Multitâche pour la Classification Multiclasse (Houssam Akhmouch, Hamza Bouanani, Gaël Dias, Jose G Moreno), TALN Formalisation de la relation entre les verbes imperfectifs et perfectifs en ukrainien (Olena Saint-Joanis, Max Silberztein), TALN Intérêt des modèles de caractères pour la détection d’événements (Emanuela Boros, Romaric Besançon, Olivier Ferret, Brigitte Grau), TALN Extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie dans un corpus métier (Camille Gosset, Mokhtar Boumedyen Billami, Mathieu Lafourcade, Christophe Bortolaso, Mustapha Derras), TALN Prédire l’aspect linguistique en anglais au moyen de transformers (Eleni Metheniti, Tim van de Cruys, Nabil Hathout), TALN Une étude des avis en ligne : généralisabilité d’un modèle d’évaluation (Hyun Jung Kang, Iris Eshkol-Taravella), TALN Sifting French Tweets to Investigate the Impact of Covid-19 in Triggering Intense Anxiety (Mohamed Amine Romdhane, Elena Cabrio, Serena Villata), TALN Outil Interactif et Évolutif pour l’Extraction d’Information dans des Documents Techniques (Thiziri Belkacem, Charles Teissèdre)démoSIDRES : A Novel Annotation Tool For The Automatic Detection of Semantic Entities (Julieta Murata, Rémy Carrette, Pierre Jourlin)démoGECko+: a Grammatical and Discourse Error Correction Tool (Eduardo Calò, Léo Jacqmin, Thibo Rosemplatt, Maxime Amblard, Miguel Couceiro, Ajinkya Kulkarni)démoACCOLÉ : Annotation Collaborative d’erreurs de traduction pour COrpus aLignÉs, multi-cibles, et Annotation d’Expressions Poly-lexicales (Emmanuelle Esperança-Rodier, Francis Brunet-Manquat)démoCorpus EN-Istex : un corpus d’articles scientifiques annoté manuellement en entités nommées (Enza Morale, Denis Maurel, Jeanne Villaneau, Jean-Yves Antoine), démo |
15h30-16h00 | Pause café | |
amphi Bernson | ||
16h00-18h00 | AG de l’ATALA | |
18h00 | Fin de la journée | |
2 juillet | amphi Bernson | salle Grand’place |
9h00-10h00 | Table ronde Qualité Village des entrepreneursModérateur : Hugues de MazancourtLes mesures de qualité sont différents en recherche et dans le secteur industriel. Qu’apprendre des expériences d’évaluation dans ces deux domaines ?Christian Fluhr est un spécialiste du traitement automatique des langues en particulier appliquées à la recherche d’information depuis le début des années 70s. il a développé un des premiers taggers basé sur un apprentissage à partir d’un corpus étiqueté. Cela a permis de développer un moteur de recherche utilisant le TLN pour l’indexation comme pour les requêtess. Dans les années 90 il a dirigé le premier projet européen d’interrogation interlingue. Il a participé dès le début aux évaluations du NIST pour les moteurs de recherche et dans le cadre de l’AUF a participé à la mise en place des premières évaluations du traitement du français. Aujourd’hui il est directeur scientifique de GEOLSemantics spécialisée dans la compréhension du langage naturel orienté par un besoin utilisateur. Zheng Zhang is an AI Engineer in Schlumberger Embedded AI Lab since December 2019. He completed his Ph.D. in natural language processing (NLP) from LISN-CNRS (previous LIMSI-CNRS), Paris-Saclay University. His research interests lie in word embeddings learning, ranging from graph-based monolingual embeddings modeling to cross-lingual contextual embeddings mapping. Before that, he received an M.Sc. in Data & Knowledge from Telecom ParisTech and an engineer’s degree in computer science from Polytech, Paris-Saclay University. His current focus is on NLP applications and research in the energy industry.
De formation ingénieur logiciel à Sup Galilée, Olivier Hamon a débuté sa carrière en 2004 en tant qu’ingénieur de recherche puis chef de projet au sein de la société ELDA (Evaluations and Language resources Distribution Agency). Également titulaire d’un DEA en intelligence artificielle et optimisation combinatoire, il a obtenu en 2010 une thèse sur l’évaluation dans le traitement automatique des langues et son application à une architecture générique et pérenne, soutenue par ELDA et le Laboratoire d’Informatique de Paris-Nord (LIPN – Université Paris XIII). Il a participé a plusieurs projets nationaux et européens ayant pour cadre les technologies de la langue et leur évaluation. En 2014, Olivier Hamon intègre la société Syllabs en tant que CTO et responsable R&D. Il y supervise les différents projets de recherche, coordonne les équipes techniques et participe à la stratégie générale autour des technologies de génération automatique de textes (GAT) et de tagging de contenus. |
Démo, poster, annonces du Village des entrepreneurs |
10h00-11h00 | Table ronde Faisabilité et Reproductibilité Village des entrepreneurs Modérateur : Antonio Balvet Les résultats de recherche en TALN, issus du monde académique comme du monde industriel, sont transférés vers le secteur industriel sous différentes formes : essaimage, conseil, composants… Quelles contraintes, quels résultats ?Géraldine Damnati est chercheuse à Orange Labs (Lannion), dans l’équipe dédiée au Traitement Automatique du Langage de l’entité DATA&AI. Ses travaux concernent la compréhension automatique du langage écrit et oral avec différents domaines applicatifs (compréhension en contexte d’interaction, analyse de verbatims de remontées client, extraction d’information dans des documents, exploration de contenus multimedia). Une composante significative des activités est le transfert technologique des travaux issus de la Recherche vers les projets opérationnels pour l’intégration de modèles dans des chaînes d’analyse et des outils industriels. Elle est par ailleurs impliquée dans la communauté en tant que membre du bureau de l’ATALA, Association pour le Traitement Automatique du Langage (vice-présidente en charge des relations avec les entreprises) et est impliquée dans le GDR TAL du CNRS en tant que co-animatrice du Club des Partenaires. Thierry Poibeau (LATTICE): Le laboratoire Lattice est un laboratoire spécialisé en linguistique et traitement automatique des langues. Thierry Poibeau y travaille en TAL et humanités numériques. Il est également membre du centre 3IA Prairie (Paris Artificial Intelligence Research Institute). Charles Teissedre est spécialiste en traitement automatique des langues. Titulaire d’une thèse sur la recherche d’informations temporelles dans les textes (prix de thèse de l’ATALA en 2013), il a participé à plusieurs projets nationaux et européens autour de l’ingénierie des langues (extraction d’information dans les textes, analyse d’opinion, systèmes de dialogue apprenants, etc.). En 2019, il a intégré l’entreprise Synapse Développement en tant que Directeur Scientifique et coordonne au sein de l’entreprise la conduite des projets stratégiques d’innovation. |
Démo, poster, annonces du Village des entrepreneurs |
11h00-12h00 | Table ronde Licences Village des entrepreneurs Modérateur : Alain Couillault Le TALN nécessite des données volumineuses et de qualité que ce soit pour la recherche ou pour l’industrie. La question des licences est centrale pour mettre à disposition largement les données tout en respectant les droits des producteurs. Elle est également centrale pour la diffusion du code informatique, qu’il soit propriétaire ou open source.Maxime Amblard est maître de conférences en informatique au Loria et à l’IDMC à l’Université de Lorraine. Il est responsable du master en Traitement Automatique des Langues et responsable de l’action Exploratoire Inria ODiM sur l’utilisation des méthodes du TAL pour l’identification de spécificités linguistiques dans les pathologies mentales. Il est actif à l’international sur les question d’éthique dans le traitement automatique des langues (ACL, NAACL, etc.) et membre fondateur du blog éthique et TAL. Il est aussi à l’origine de l’atelier ETeRNAL sur l’éthique en TAL, organisé dans le cadre de TALN. Aurélie Névéol est chargée de Recherche au CNRS (LISN, Université Paris Saclay). Après un DEA de linguistique en 2002 et un doctorat en informatique en 2005, elle a effectué un séjour post-doctoral à la National Library of Medicine aux Etats-Unis. Ses travaux de recherche portent sur le traitement automatique de la langue biomédicale et en particulier pour les langues autres que l’anglais. Elle a notament contribué au développement de corpus biomédicaux annotés en entités nommées, attributs et relations sur lesquels les modèles de langue peuvent s’appuyer pour l’extraction d’informations à partir de textes cliniques non structurés, qui peuvent ensuite être utilisés pour des applications en épidémiologie et santé publique. Elle a également contribué à l’évaluation des méthodes de TAL grâce au projet H2020 MIROR et à l’organisation de campagnes d’évaluation internationales telles que CLEF eHealth et la tâche biomédicale de WMT. Khalid Choukri, Hélène Mazo et Valérie Mapelli (ELDA): ELDA, l’Agence pour la Distribution des Ressources Linguistiques et l’Evaluation (en anglais : Evaluations and Language Resources Distribution Agency) est l’entité opérationnelle de l’association ELRA (European Language Resources Association). Créée en février 1995 pour prendre en charge et mettre en œuvre les activités d’ELRA, l’agence a pour but d’identifier, classer, collecter, valider et produire les ressources linguistiques utiles à la communauté scientifique dans le domaine des technologies de la langue. En pratique, c’est ELDA qui s’occupe de la distribution des ressources linguistiques, ce qui recouvre les aspects juridiques, commerciaux et techniques. La participation à des initiatives européennes telles que ELRC, ELG ou MAPA fait aussi partie des activités d’ELDA. Khalid Choukri, PDG d’ELDA et Secrétaire général d’ELRA supervise les activités menées par une douzaine de salariés, travaillant à temps complet et partiel.
Sylvain Karpf (Université de Lille) travaille depuis mi-2019 au sein de la Direction de la Valorisation de la Recherche de l’Université de Lille. Dans le cadre de ses missions, il s’occupe d’accompagnement de projets de startups et de valorisation de la recherche dans le domaine du numérique et du logiciel. Il conseille ainsi les chercheurs pour tout ce qui concerne la propriété intellectuelle et la diffusion des logiciels, en particulier via des licences opensource. Auparavant, il a été pendant 13 ans responsable transfert et innovation du centre Inria Lille Nord Europe, où il a accompagné les équipes de recherche dans leurs actions de transfert, notamment via la création de startups, la diffusion de logiciels sous licences opensource ou propriétaires, ainsi que le montage de consortiums OpenSource. |
Démo, poster, annonces du Village des entrepreneurs |
12h00-12h15 | Discussion générale des tables rondes Village des entrepreneurs |
Démo, poster, annonces du Village des entrepreneurs |
amphi Bernson | ||
12h15-12h45 | Clôture de la conférence TALN-RECITAL 2021 |