MarkedDPR: Un bi-encodeur exploitant la correspondance lexicale

Smail Oussaidene
Lynda Said Lhadj
Mohand Boughanem
DOI
10.24348/coria.2024.long_32
Résumé

Les modèles récents de RI neuronale tels que le modèle dense DPR estiment la pertinence à travers l’appariement sémantique entre la requête et le document en ignorant l’appariement exact. Nous présentons dans cet article MarkedDPR, une extension du modèle DPR, conçue pour prendre en compte explicitement les signaux de correspondances exactes entre la requête et le document. MarkedDPR est principalement basé sur une méthode de marquage qui met en évidence les correspondances exactes pour chaque paire requête-document afin de guider le modèle lors de l’apprentissage. Les évaluations empiriques que nous avons réalisées ont montré l’intérêt du marquage aussi bien sur les données issues du même domaine (in-domain) que sur celles qui sont hors domaine (out-domain) et ont affiché des améliorations significatives vis-à-vis des modèles de base (baselines) que nous avons considérés.