Étude comparative de méthodes de classification multilingue appliquées à l'épidémiologie

Stephen Mutuvi; Emanuela Boros; Antoine Doucet; Gaël Lejeune; Adam Jatowt; Moses Odeo

doi:10.24348/coria.2021.mini_26

Étude comparative de méthodes de classification multilingue appliquées à l'épidémiologie

Stephen Mutuvi

Emanuela Boros

Antoine Doucet

Gaël Lejeune

Adam Jatowt

Moses Odeo

DOI: 10.24348/coria.2021.mini_26

Résumé

Dans cet article, nous abordons la tâche de classification multilingue de textes dans le domaine épidémiologique. Nous comparons différents modèles d’apprentissage automatique et d’apprentissage profond à l’aide d’un jeu de données multilingue comprenant des articles de presse en six langues. Notre objectif est d’analyser l’influence de la famille de langue, de la structure du document et de la taille des données sur les résultats de classification. Nos résultats indiquent que les performances des modèles basés sur des modèles linguistiques dépassent de plus de 50% les baselines, parmi lesquelles un système spécialisé de surveillance épidémiologique et plusieurs modèles d’apprentissage automatique.

Étude comparative de méthodes de classification multilingue appliquées à l'épidémiologie

Étude comparative de méthodes de classification multilingue appliquées à l'épidémiologie

Sponsors de CORIA 2021