Détection d’hallucinations dans le cadre de la tâche 6 SemEval-Shroom

Nihed Bendahman
Karen Pinel-Sauvagnat
Gilles Hubert
Mokhtar Boumedyen Billami
DOI
10.24348/coria.2024.abstract_26
Résumé

Cet article présente notre participation à la tâche 6 de SemEval-2024, nommée SHROOM (a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes). L’objectif de la tâche est de détecter des hallucinations. Nous avons proposé deux types d’approches pour la tâche: une première basée sur des embeddings (ou plongements) de phrases, et une seconde basée sur des LLMs (Large Language Model). Nous observons que les LLMs ne parviennent pas à améliorer les performances obtenues par les modèles de génération d’embeddings. Ces derniers surpassent la baseline fournie par les organisateurs, et notre meilleure approche obtient 78% de précision.