Étude comparative de méthodes de classification multilingue appliquées à l'épidémiologie

Stephen Mutuvi
Emanuela Boros
Antoine Doucet
Gaël Lejeune
Adam Jatowt
Moses Odeo
DOI
10.24348/coria.2021.mini_26
Résumé

Dans cet article, nous abordons la tâche de classification multilingue de textes dans le domaine épidémiologique. Nous comparons différents modèles d’apprentissage automatique et d’apprentissage profond à l’aide d’un jeu de données multilingue comprenant des articles de presse en six langues. Notre objectif est d’analyser l’influence de la famille de langue, de la structure du document et de la taille des données sur les résultats de classification. Nos résultats indiquent que les performances des modèles basés sur des modèles linguistiques dépassent de plus de 50% les baselines, parmi lesquelles un système spécialisé de surveillance épidémiologique et plusieurs modèles d’apprentissage automatique.