RFreeStem un raciniseur pour le Malgache

Andonirina Andriamihasinoro
Oihana Coustie
Josiane Mothe
Olivier Teste
DOI
10.24348/coria.2021.court_22
Résumé

La racinisation est une étape dans le pré-traitement des textes qui regroupe des mots qui sont morphologiquement différents mais sémantiquement similaires, et qui donc, utilisés dans une requête, devraient correspondre à des résultats d’un moteur de recherche similaires voire identiques. Pour de nombreuses langues, les raciniseurs sont à base de règles. Pour des langues non outillées, le problème de racinisation demeure non résolu. C’est le cas du malgache. Cet article analyse l’efficacité d’un raciniseur, RFeeStem, basé sur l’analyse statistique des textes et sans règle. Nous étudions les hyperparamètres de ce raciniseur et leur influence sur l’efficacité du raciniseur pour le malgache en se comparant à une collection de test existante et contenant des racines obtenues manuellement.