GREW-MATCH – TALN-RÉCITAL 2021

Recherche de motifs dans un corpus annoté à l’aide de l’outil GREW – MATCH

Descriptif :

Les outils d’exploration de corpus qui permettent de retrouver et de visualiser un motif donné dans

un corpus annoté sont utiles, que ce soit pour une étude linguistique ou pour la maintenance de corpus en détectant des erreurs ou des incohérences. Une façon de présenter cette tâche est de considérer une annotation comme un graphe et le motif à retrouver dans cette annotation comme un autre graphe. Le problème revient alors à apparier deux graphes ; c’est ce que propose l’outil GREW-MATCH (http://match.grew.fr), qui est utilisable en ligne sans installation. Il est disponible avec les données des projets Universal Dependencies, PARSEME ou Orfeo.

Le tutoriel s’adresse à un public d’informaticiens ou de linguistes intéressés par l’annotation de corpus ou l’exploitation de corpus annotés. Il ne nécessite aucun pré-requis. Nous proposons de le tenir sur une demi-journée. L’essentiel consistera en des exercices visant à concevoir des motifs ayant une propriété donnée. Les exercices seront graduels et variés, tant du point de vue du format d’annotation (différents formats syntaxiques ou sémantiques notamment) que du point de vue des langues utilisées.

Organisateurs :

Bruno Guillaume et Guy Perrier

LORIA, 54506 Vandoeuvre-lès-Nancy cedex, France

Contacts :

bruno.guillaume@loria.fr, guy.perrier@loria.fr

Pré-requis :

Le pré-requis pour la participation à ce tutoriel est la connaissance de GREW, connaissance qui peut avoir été acquise dans le tutoriel qui lui est consacré ou par l’utilisation du tutoriel en ligne disponible sur le site http://match.grew.fr. La durée prévue pour le tutoriel est d’une demijournée.

Une grande place sera faite aux exercices qui porteront sur des corpus variés, tant par la langue utilisée que par les niveaux d’annotation considérés. Les exercices se feront en ligne sur le site http://transform.grew.fr/.

Durée :

une demi-journée