Le problème des hallucinations dans l'accès à l'information scientifique fiable par les LLMs: verrous et opportunités

Benjamin Vendeville
Liana Ermakova
Pierre De Loor
DOI
10.24348/coria.2024.position_31
Résumé

L’évolution des LLMs (Large Langage Models) a profondément impacté la manière dont les individus interagissent avec l’information. Les requêtes de recherche traditionnelles sont remplacées par des requêtes à des IA génératives utilisant des LLMs. Cet article se concentre sur un aspect critique des LLMs, à savoir l’hallucination, en se concentrant sur le problème de la simplification automatique de textes scientifiques. Les hallucinations sont caractérisées par la génération de données vraisemblables mais incorrectes par les LLMs. L’article en donne une formalisation relative à des faits, un contexte et un document. Cette étude explore ensuite les limites des métriques traditionnelles d’évaluation de qualité textuelle comme BLEU ou ROUGE pour évaluer l’hallucination et argumente sur le fait que des benchmarks basés sur des corpus adaptés ainsi que des méthodes de classifieurs d’implication et de reconnaissances d’entités permettront de mieux évaluer la fiabilité des LLMs en simplification scientifique. De même, nous explorons les limites des modèles standards de simplification scientifique et donnons quelques argumentons sur le fait que les modèles basés sur la reconnaissance d’entités sont une piste intéressante pour permettre d’améliorer les performances des méthodes de simplification automatique de textes scientifiques.