Extraction des liens d'articles à partir de la une des journaux en ligne

Romain Perrone
Cédric Boscher
Nada Lasri
Elöd Egyed-Zsigmond
DOI
10.24348/coria.2021.long_17
Résumé

La détection automatisée des liens d’articles dans la une des journaux en ligne est un sujet très peu étudié, bien qu’il s’agisse d’une étape clé pour extraire des informations à partir d’un journal. Dans cette étude, nous présentons une nouvelle approche permettant de détecter efficacement les liens des articles présents sur un large éventail de pages web de journaux. Notre méthode détecte les liens présents sur une page web et élimine les liens non pertinents grâce à des techniques d’apprentissage automatique basée sur le texte des liens. Les attributs DOM des balises liens sont ensuite regroupés sous forme de clusters et une série d’expressions XPATH représentant les groupements d’articles sur la page est générée. Notre méthode étudie ensuite les liens détectés lors de plusieurs visites durant plusieurs jours sur un même site afin d’utiliser des informations temporelles pour affiner les critères de détection. L’algorithme produit une liste d’url d’articles en sortie. Un des avantages de notre approche est qu’elle ne repose pas sur la structure initiale du DOM : elle donne donc de très bons résultats sur un large panel de sites de journaux.