Apprendre à classer le contexte pour la reconnaissance d'entités nommées en utilisant un jeu de données synthétique

Arthur Amalvy
Vincent Labatut
Richard Dufour
DOI
10.24348/coria.2024.abstract_10
Résumé

Même si les modèles récents à base de transformeurs obtiennent de bons résultats dans de nombreuses tâches de traitement du langage, leur portée limitée est un problème lorsqu’il s’agit de traiter de longs documents comme des romans. Il est possible de récupérer du contexte au niveau du document de manière non supervisée pour améliorer les performances d’une tâche, mais entraîner un modèle à récupérer ce contexte de manière supervisée est difficile à cause du manque de données. Pour la tâche de reconnaissance des entités nommées (REN), nous proposons de générer un jeu de données synthétique de récupération de contexte afin d’entraîner un modèle de reclassement. Nous montrons qu’un tel modèle peut surpasser des approches non supervisées lorsqu’il s’agit d’améliorer la performance d’un modèle de REN sur un corpus littéraire.