Génération de textes artificiels pour l'expansion de requêtes
- DOI
- 10.24348/coria.2021.long_9
Un moyen d’améliorer les performances de la recherche de documents consiste à étendre la requête de l’utilisateur. Plusieurs approches ont été proposées dans la littérature, et certaines d’entre elles obtiennent des résultats jugés état-de-l’art. Dans cet article, nous explorons l’utilisation de la génération de texte pour étendre automatiquement les requêtes. Nous nous appuyons sur un modèle génératif neuronal bien connu, GPT-2, pour lequel il existe des modèles pré-entraînés pour l’anglais, mais qui peut également être affiné sur des corpus spécifiques. À travers différentes expériences, nous montrons que la génération de texte est un moyen très efficace d’améliorer les performances d’un système de RI, avec une marge importante (+10% de gains MAP), et qu’il surpasse des approches état-de-l’art reposant également sur l’expansion des requêtes (LM+RM3). Cette approche conceptuellement simple peut être facilement mise en uvre sur n’importe quel système de RI grâce à la disponibilité du code et des modèles GPT.