O-CALM : Augmentation du contexte hors ligne avec un large language model pour la reconnaissance des entités nommées

Tanguy Herserant
Tristan Luggi
Thong Tran
Vincent Guigue
Laure Soulier
DOI
10.24348/coria.2024.court_15
Résumé

Dans les précédentes recherches sur la Reconnaissance d’Entités Nommées (NER), l’attention s’est concentrée sur la résolution des défis liés à la rareté des données et au surapprentissage, en particulier dans le contexte des architectures transformer de plus en plus complexes. L’article CL-KL, Wang et al. 2021, propose un modèle basé sur la Recherche d’Informations (IR), utilisant l’API de Google Search afin d’augmenter les échantillons d’entrée et d’atténuer le surapprentissage. Cette approche repose sur des sources d’informations externes, nécessite une connexion internet et est limitée sur la sélection du contenu. Afin de relever ces défis, nous présentons O-CALM, une méthode innovante d’augmentation de contexte grâce aux LLM, conçue pour être adaptable grâce au prompting et pour avoir une génération hors ligne. Dans notre étude, les prompts utilisés sont soigneusement définis sous forme d’une paire comprenant une tâche spécifique et une ou plusieurs stratégies de réponse. Une bonne définition des prompts est cruciale pour atteindre des performances optimales. Nos résultats démontrent que le contexte généré par LLM améliore la robustesse et les performances sur les ensembles de données NER. Nous obtenons des scores F1 état de l’art sur les ensembles WNUT17 et CoNLL++. Pour finir, nous examinons aussi l’impact des prompts.