Tuto@Mate#70 - Concevoir un projet d’annotation de données langagières avec INCEpTION par L.M Ho-Dac

Concevoir et mener un projet d’annotation de données langagières avec INCEpTION Annoter un corpus, c’est ajouter une ou plusieurs couches d’interprétation à des données langagières brutes (textes écrits numérisés ou discours oraux retranscrits). Les annotations sont réalisées lors de campagnes d’annotation par des annotateurs humains, plus ou moins experts, qui s’appuient sur un guide d’annotation et utilisent un outil d’annotation. L’annotation peut-être définie comme le processus par lequel un groupe d’annotateurs va avoir pour mission d’enrichir manuellement un corpus en y ajoutant des informations linguistiques qui peuvent être de nature très diversifiée : délimitation d’unités (e.g. morphèmes, tokens, unités de discours, expressions référentielles, entités nommées), mise en relation d’unités (e.g. relations syntaxiques, relations de discours, relations anaphoriques) ou étiquetage des unités ou des relations (e.g. partie du discours, fonctions syntaxiques, type sémantique, acte de parole). Cet atelier a pour objectif de revenir sur les éléments fondamentaux d’une campagne d’annotation de données langagières et présenter comment les mettre en oeuvre grâce à la plateforme INCEpTION. Cette plateforme propose des fonctionnalités pour mener des projets d’annotation complexes : mise en place d’un projet d’annotation : import de corpus, création de couches d’annotation, mise à disposition des guides d’annotation gestion de cohortes d’annotateurs interface d’annotation interface d’adjudication (i.e. phase de l’annotation qui consiste à trouver un consensus en cas de désaccord entre plusieurs annotateurs) mesure de l’accord inter-annotateur pour évaluer la qualité des annotations récoltées export des annotations dans différents formats. Parmi les atouts de la plateforme INCEpTION, le caractère collaboratif nous intéresse particulièrement. Un projet d’annotation collaborative consiste à fédérer des annotateurs humains pour annoter un même jeu de données de façon asynchrone et à distance afin de constituer petit à petit une « grande » ressource annotée que ce soit un grand nombre de textes, une grande diversité de couches d’annotation et/ou un grand nombre d’annotations communes pour mettre au jour les (dés)accords inter-annotateurs. Nous retrouvons ici la même idée que celle de construction collaborative à la base du projet Wikipedia. Le caractère collaboratif devrait assurer la mise à disposition d’annotations de qualité dans une quantité suffisante et fournir des données d’entraînement de modèles d’apprentissage automatique, des données d’évaluation pour le traitement automatique du langage et des données pour réaliser des analyses quantitatives. Lien : https://inception-project.github.io/ Lydia-Mai HO-DAC est Maîtresse de conférences en Sciences du Langage à l’Université Toulouse Jean Jaurès dans le laboratoire CLLE (UM5263). Elle enseigne en linguistique de corpus et Traitement Automatique des Langues. Ce webinaire, tenu le 1er avril 2025, fait partie de la série des Tuto@Mate du réseau Mate-shs. Plus d'informations sur le tuto (par exemple slides, liens utiles) sur le site de Mate-shs : https://mate-shs.cnrs.fr/actions/tuto... et sur Mate-shs : https://mate-shs.cnrs.fr

What is SonarQube | Introduction SonarQube | SonarQube Tutorial | SonarQube Basics | Intellipaat
▶︎

What is SonarQube | Introduction SonarQube | SonarQube Tutorial | SonarQube Basics | Intellipaat

L’importance et les jeux de l’annotation des données dans la réalisation d’un projet d’IA
▶︎

L’importance et les jeux de l’annotation des données dans la réalisation d’un projet d’IA

Webinaire - Les clés pour une évaluation d'entreprise réussie !
▶︎

Webinaire - Les clés pour une évaluation d'entreprise réussie !

How to understand native speakers when they talk quickly: Live English Class
▶︎

How to understand native speakers when they talk quickly: Live English Class

Accompagner les transitions de carrière et les mobilités avec map & match ☕️ Café entre experts
▶︎

Accompagner les transitions de carrière et les mobilités avec map & match ☕️ Café entre experts

Obligations de TotalEnergies : audition de Jean-Marc Jancovici
▶︎

Obligations de TotalEnergies : audition de Jean-Marc Jancovici

Ocean Waves for Deep Sleep LIVE 🌊 Rolling Waves & Dark Screen  Reduce Anxiety, Stress & Sleep Aid
▶︎

Ocean Waves for Deep Sleep LIVE 🌊 Rolling Waves & Dark Screen Reduce Anxiety, Stress & Sleep Aid

INTÉGRAL Nagui se défend bec et ongles à l'Assemblée
▶︎

INTÉGRAL Nagui se défend bec et ongles à l'Assemblée

[Leçon inaugurale] Yann Le Cun - Apprentissage profond et au-delà : les nouveaux défis de l'IA
▶︎

[Leçon inaugurale] Yann Le Cun - Apprentissage profond et au-delà : les nouveaux défis de l'IA

Nvidia CEO Jensen Huang Interview| Bloomberg Technology Special
▶︎

Nvidia CEO Jensen Huang Interview| Bloomberg Technology Special

PLC Troubleshooting 101.  Basic Steps to Diagnose and Fix Your Machine
▶︎

PLC Troubleshooting 101. Basic Steps to Diagnose and Fix Your Machine

Master No Code Chatbots With Copilot Studio (Formerly Power Virtual Agents) [Full Course]
▶︎

Master No Code Chatbots With Copilot Studio (Formerly Power Virtual Agents) [Full Course]

LIVE 24/7 – Sleep With God’s Word | Peaceful Bible Reading for Rest & Prayer
▶︎

LIVE 24/7 – Sleep With God’s Word | Peaceful Bible Reading for Rest & Prayer

Tuto@Mate#75Entrez dans la lexicométrie avec le logiciel IRaMuTeQ par Lucie Loubère
▶︎

Tuto@Mate#75Entrez dans la lexicométrie avec le logiciel IRaMuTeQ par Lucie Loubère

Microsoft Fabric and Power BI - Developer of the Future⚡ [Full Course]
▶︎

Microsoft Fabric and Power BI - Developer of the Future⚡ [Full Course]

Personne ne réalise ce que Yann LeCun vient de créer
▶︎

Personne ne réalise ce que Yann LeCun vient de créer

RL for Agents Workshop - Deep Dive on Training Agents with RL and Open Source
▶︎

RL for Agents Workshop - Deep Dive on Training Agents with RL and Open Source

Is Meloni a fascist? The 20-Year Era in the Government's Vision. Franz Baraggino interviews Tomas...
▶︎

Is Meloni a fascist? The 20-Year Era in the Government's Vision. Franz Baraggino interviews Tomas...

Jfrog | Jfrog Artifactory | Jfrog Artifactory Tutorial | Artifactory Tutorial | Intellipaat
▶︎

Jfrog | Jfrog Artifactory | Jfrog Artifactory Tutorial | Artifactory Tutorial | Intellipaat

How to Start Coding | Programming for Beginners | Learn Coding | Intellipaat
▶︎

How to Start Coding | Programming for Beginners | Learn Coding | Intellipaat