Extraction des liens d'articles à partir de la une des journaux en ligne

Romain Perrone; Cédric Boscher; Nada Lasri; Elöd Egyed-Zsigmond

doi:10.24348/coria.2021.long_17

Extraction des liens d'articles à partir de la une des journaux en ligne

Romain Perrone

Cédric Boscher

Nada Lasri

Elöd Egyed-Zsigmond

DOI: 10.24348/coria.2021.long_17

Résumé

La détection automatisée des liens d’articles dans la une des journaux en ligne est un sujet très peu étudié, bien qu’il s’agisse d’une étape clé pour extraire des informations à partir d’un journal. Dans cette étude, nous présentons une nouvelle approche permettant de détecter efficacement les liens des articles présents sur un large éventail de pages web de journaux. Notre méthode détecte les liens présents sur une page web et élimine les liens non pertinents grâce à des techniques d’apprentissage automatique basée sur le texte des liens. Les attributs DOM des balises liens sont ensuite regroupés sous forme de clusters et une série d’expressions XPATH représentant les groupements d’articles sur la page est générée. Notre méthode étudie ensuite les liens détectés lors de plusieurs visites durant plusieurs jours sur un même site afin dutiliser des informations temporelles pour affiner les critères de détection. L’algorithme produit une liste d’url d’articles en sortie. Un des avantages de notre approche est qu’elle ne repose pas sur la structure initiale du DOM : elle donne donc de très bons résultats sur un large panel de sites de journaux.

Extraction des liens d'articles à partir de la une des journaux en ligne

Extraction des liens d'articles à partir de la une des journaux en ligne

Sponsors de CORIA 2021