Une approche YeSQL pour la recherche d'information juridique

Eric Sanjuan and Adrian Chifu
DOI
10.24348/coria.2024.position_18
Résumé

On présente une application simple de recherche de passages dans les décisions de justice françaises en accès libre. Propulsée par PostGreSQL, les décisions sont segmentées en courts passages. On utilise ms-marco-minilm pour associer un plongement à chaque passage et pour convertir à la volée les requêtes utilisateurs en vecteurs. Plongements, contenu des décisions au format xml/json et graphes de connaissance sont insérées dans un schema relationnel normalisé. PostGreSQL permet d’étendre le SQL à la recherche textuelle avec les index généralisés (gin), l’extraction d’éléments json avec un type spécifique et le produit scalaire avec la bibliothèque pg_vector. Nous montrons l’efficacité de cette approche SQL pour la recherche de passages vis à vis du volume des textes et de leur longueur. Nous explorons ensuite les multiples stratégies d’agrégation de passages qui sont rendus possibles par cet environnement pour étendre la recherche de passages à celle de décisions entières.