STRAS : Une approche à base de règles sémantiques et d'indices textuels pour la séparation des articles dans les journaux historiques
- DOI
- 10.24348/coria.2024.abstract_3
Cet article présente STRAS, une approche à base de règles qui s’appuie sur des indices textuels sémantiques pour la séparation des articles dans les journaux historiques. En utilisant des encastrements de régions de texte, notre approche catégorise et sépare avec succès les articles dans les journaux français et finlandais des 19ème et 20ème siècles. Parmi les modèles évalués (sgSTRAS, cbowSTRAS, ftSTRAS, preSTRAS), sgSTRAS démontre une performance supérieure sur les deux ensembles de données, soulignant l’importance des caractéristiques sémantiques du texte. Dans l’ensemble, STRAS représente une avancée prometteuse dans l’analyse des journaux historiques, en relevant les défis de la mise en page et en suggérant des pistes d’amélioration pour la tâche AS.