Extraction d’information collaborative multilingue
Objectif :
L’objectif de ce tutoriel est de mieux comprendre la structure du langage naturel, et de voir comment gérer en pratique ces structures pour extraire facilement de l’information d’un texte.
Contact :
Patrick Constant, Directeur Scientifique de Pertimm. Patrick.constant@pertimm.com
Description du tutoriel :
Nous proposons de montrer comment développer des agents multilingues d’extraction d’information sur la base de la nouvelle plateforme collaborative et open-source www.viky.ai.
Nous présenterons tout d’abord les grands principes de la plateforme (et du TAL), puis nous proposerons le développement collaboratif d’un agent sur la détection d’émotions : les participants devront travailler ensemble par groupe de 2 à quatre personnes. L’utilisation d’agents déjà existants sera encouragée, et un traitement a minima bilingue sera aussi encouragé. La lecture préalable du tutoriel en ligne https://www.viky.ai/doc/tutorials/getting-started-part-1/ sera un plus, mais n’est pas requis pour participer à ce tutoriel. Typiquement la reconnaissance d’émotions positive ou négative sera traitée, la prise en compte des négations ou des modificateurs d’intensité, et pour les plus avancés un début de traitement du sarcasme.
L’outil fonctionne à base de règles syntaxiques et lexicales qui s’appellent des interprétations (ou intentions) et des entités. L’outil n’utilise pas d’apprentissage automatique, comme peuvent le faire les outils Rasa ou SpacY, par exemple. Il peut se concevoir comme un outil de prétraitement pour des applications plus poussée de Deep Learning sur les textes, par exemple.
Plan de présentation :
Nous présentons dans un premier temps les grands principe de fonctionnement de la plateforme viky.ai et à travers ces principes, nous présentons l’organisation d’une langue. (20 mins)
Création d’un compte sur viky.ai et navigation initiale dans les agents. (10 mins)
Utilisation de l’interface Play pour jouer avec quelques agents. (30 mins)
Copie d’un agent existant « NRC (emotions) demo » dans son propre environnement, analyse de sa structure et test de cet agent via l’interface Play. (30 mins)
Ajout/suppression de quelques mots supplémentaires pour les émotions positives ou négatives et vérification de la prise en compte de ces mots dans l’interface play. (30 mins)
Analyse des agents de modification (positif, négatif, augmentation et diminution), et modification de l’un de ceux-ci par duplication et recréation des liaisons. (30 mins)
Création d’un agent list permettant de construire un valeur agrégée sur un texte. (30 mins)
Utilisation de l’API viky.ai avec Postman (30 mins)
Outils utilisés :
Apporter son propre ordinateur (Linux ou Windows),
Connexion Internet,
Télécharger le programme Postman (pour tester les APIs),
Prévoir d’apporter quelques textes en français ou en anglais pour tester la reconnaissance d’émotions.
Public ciblé :
Des enseignants qui veulent montrer le fonctionnement du TAL à travers viky.ai.
Des chercheurs qui veulent utiliser viky.ai comme plateforme de TAL (au même titre que des plateforme comme Rasa ou SpaCy), pour faire par exemple des prétraitements avant des traitements de Deep Learning plus avancés.
Des industriels qui ont besoin de faire de l’extraction d’information sur des documents plats ou dans des champs structurées, mais qui ne veulent pas investir trop de temps sur ce point.
Des étudiants en linguistique ou en IA qui veulent mieux comprendre le TAL.
Des startup-er qui ont besoin d’un traitement TAL dans le cadre de leur nouvelle entreprise mais qui veulent aller vite sur ce sujet ( pour pas trop dépenser de temps et d’argent et se concentrer sur leur chaîne de valeur).
Pré-requis :
Savoir manipuler un ordinateur.
Une connaissance du domaine du TAL (linguistique computationnel ou non) est un plus.
Aucune compétence de codage n’est nécessaire, même si une connaissance du Javascript sera un plus.
Durée :
une demi-journée