Apprendre à classer le contexte pour la reconnaissance d'entités nommées en utilisant un jeu de données synthétique

Arthur Amalvy; Vincent Labatut; Richard Dufour

doi:10.24348/coria.2024.abstract_10

Apprendre à classer le contexte pour la reconnaissance d'entités nommées en utilisant un jeu de données synthétique

Arthur Amalvy

Vincent Labatut

Richard Dufour

DOI: 10.24348/coria.2024.abstract_10

Résumé

Même si les modèles récents à base de transformeurs obtiennent de bons résultats dans de nombreuses tâches de traitement du langage, leur portée limitée est un problème lorsqu’il s’agit de traiter de longs documents comme des romans. Il est possible de récupérer du contexte au niveau du document de manière non supervisée pour améliorer les performances d’une tâche, mais entraîner un modèle à récupérer ce contexte de manière supervisée est difficile à cause du manque de données. Pour la tâche de reconnaissance des entités nommées (REN), nous proposons de générer un jeu de données synthétique de récupération de contexte afin d’entraîner un modèle de reclassement. Nous montrons qu’un tel modèle peut surpasser des approches non supervisées lorsqu’il s’agit d’améliorer la performance d’un modèle de REN sur un corpus littéraire.

Apprendre à classer le contexte pour la reconnaissance d'entités nommées en utilisant un jeu de données synthétique

Apprendre à classer le contexte pour la reconnaissance d'entités nommées en utilisant un jeu de données synthétique

Sponsors de CORIA-RJCRI 2024