Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques

Emanuela Boros; Ahmed Hamdi; Elvys Linhares Pontes; Luis Adrián Cabrera-Diego; Jose G Moreno; Nicolas Sidère; Antoine Doucet

doi:10.24348/coria.2021.mini_24

Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques

Emanuela Boros

Ahmed Hamdi

Elvys Linhares Pontes

Luis Adrián Cabrera-Diego

Jose G Moreno

Nicolas Sidère

Antoine Doucet

DOI: 10.24348/coria.2021.mini_24

Résumé

Cet article aborde la reconnaissance d’entités nommées (NER) appliquée aux textes historiques obtenus à partir du traitement d’images numériques de journaux à l’aide de techniques de reconnaissance optique de caractères (OCR). Nous soutenons que le principal défi pour cette tâche est que le processus OCR produit des textes contenant entre autres des fautes d’orthographe et des erreurs de syntaxes. De plus, des variations sémantiques peuvent être présentes dans les documents anciens, ce qui a un impact sur les performances de la reconnaissance d’entités nommées. Nous menons une évaluation comparative à l’état de l’art de deux ensembles de données historiques en allemand et en français, et nous proposons un modèle basé sur une pile hiérarchique de couches Transformer pour aborder la reconnaissance d’entités nommées dans des données historiques. Nos résultats montrent que le modèle proposé améliore clairement les résultats sur les deux ensembles de données.

Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques

Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques

Sponsors de CORIA 2021