DEFT 2021
https://deft.lisn.upsaclay.fr/2021/
Description :
Créé en 2005 à l’image des campagnes TREC et MUC, le DÉfi Fouille de Textes est une campagne d’évaluation francophone qui propose chaque année de confronter les méthodes de plusieurs équipes de recherche sur une thématique régulièrement renouvelée. L’édition 2021 portera sur deux domaines distincts :
- dans la continuité des éditions 2019 et 2020 avec le traitement des cas cliniques rédigés en français (descriptions de situations cliniques rares utilisées à des fins pédagogiques, scientifiques ou thérapeutiques). Le corpus utilisé provient d’un ensemble plus vaste composé de cas cliniques, porteur d’annotations plus complètes [1]. Pour 2021, nous reprenons les corpus des éditions passées (une sélection de cas parmi plus de 700 cas), éventuellement complété de nouveaux cas. Les cas cliniques sont anonymes. Ils couvrent différentes spécialités médicales (cardiologie, urologie, oncologie, obstétrique, pulmonaire, gasto-entérologie, etc.). Ils décrivent des cas qui se sont produits dans différents pays francophones (France, Belgique, Suisse, Canada, pays africains, pays tropicaux, etc.).
[1] N Grabar, V Claveau, C Dalloux. CAS: French Corpus with Clinical Cases. LOUHI 2018, p. 1-7 - sur la correction automatique de copies électroniques d’étudiants (du type questionnaires sous Moodle). Le corpus utilisé se compose d’une centaine d’énoncés en informatique (programmation web et bases de données) avec la correction de l’enseignant, et des réponses produites par une cinquantaine d’étudiants en moyenne par question, sur deux années d’enseignement. Le corpus se compose de questions ouvertes et fermées. Il est anonymisé et proposé au format JSON. Il existe des méthodologies et données d’évaluation sur l’anglais pour évaluer les réponses courtes d’étudiants [2], et plusieurs campagnes d’évaluation ont déjà eu lieu, mais uniquement pour l’anglais (Kaggle-HP-SAG, SemEval, etc.).
[2] Mohler, M. and Mihalcea, R. (2009). Text-to-text semantic similarity for automatic short answer grading. In Proc of EACL, pages 567–75, Athens, Greece.
Accès aux données :
L’accès aux données ne sera rendu possible qu’après signature d’un accord d’utilisation des données DEFT 2021 par l’ensemble des membres de l’équipe. Les participants sont libres de participer à une ou plusieurs tâches. En accédant aux données, ils s’engagent moralement à participer jusqu’au bout (soumettre des résultats et présenter les résultats pendant l’atelier).
Organisateurs :
-
Natalia GRABAR (Université de Lille, CNRS, STL)
-
Cyril GROUIN (Université Paris-Saclay, CNRS, Laboratoire Interdisciplinaire des Sciences du Numérique – LISN)
- Gabriel ILLOUZ (Université Paris-Saclay, CNRS, Laboratoire Interdisciplinaire des Sciences du Numérique – LISN)
Durée :
1 jour