Benchmarking du jeu de données NAS pour la séparation d'articles dans la presse ancienne

Nancy Girdhar
Mickaël Coustaty
Antoine Doucet
DOI
10.24348/coria.2024.abstract_2
Résumé

Cet article concerne l’accessibilité de collections de presse ancienne. L’un des principaux défis à relever pour rendre les contenus accessibles est l’extraction d’articles individuels à partir d’images de pages numérisées en vue d’exploiter les documents à la granularité adéquate. Nous évaluons le jeu de données NewsEye Article Separation (NAS), qui contient des pages de presse ancienne des 19e et 20e siècles en allemand, finnois et français. NAS représente un défi en raison de la diversité des mises en page et des styles de police. Nous introduisons en outre de nouvelles mesures, notamment le taux d’erreur des articles, le score de couverture des articles, le taux d’articles correctement prédits et la segmentation, afin d’évaluer les performances des modèles. Le jeu de données NAS est accessible au public.