Mieux comprendre les modèles de langue et les textes qu’ils produisent

 Mercredi 3 avril

Benoît Sagot
Directeur de Recherche Inria en Traitement Automatique des Langues et Linguistique Informatique
France
Website

Résumé

Les modèles de langue, et notamment les modèles de langue génératifs et conversationnels, sont au cœur des avancées récentes en traitement automatique des langues (TAL) comme en recherche d’information (RI). La façon dont ces modèles représentent les contenus textuels, la façon dont ils apprennent ces représentations, et les propriétés des textes qu’ils produisent posent de multiples questions de recherche dont l’étude est donc susceptible d’avoir un fort impact en TAL comme en RI. Je présenterai plusieurs travaux récents autour de ces thématiques. Je commencerai par montrer que les modèles de langue s’appuyant sur l’archicture Transformer ont tendance à produire des représentations vectorielles qui ne sont pas distribuées de façon isotrope dans l’espace. Cette anisotropie est en lien avec la façon dont ces modèles sont appris, qui conduit à ce que la fréquence des tokens prenne une place prépondérante dans leur représentation. Je montrerai que cet effet a des conséquences négatives sur la capacité de petits modèles à s’entraîner de façon satisfaisante mais ne semble pas affecter les plus grands modèles. Je décrirai également une approche nouvelle pour l’entraînement de modèles de langue destinée à éviter les effets indésirables de cette prévalence de l’information de fréquence, qui conduit à de multiples conséquences positives, y compris sur les performances aval du modèle. Enfin, je présenterai quelques résultats sur la détectabilité de contenus produits par des modèles de langue et sur la possibilité d’attribuer automatiquement un contenu à un modèle ou à une famille de modèle donnés. Pour conclure, je montrerai l’importance d’une bonne compréhension du fonctionnement des modèles de langue pour en permettre une utilisation optimale, en dressant notamment un parallèle entre les approches dites RAG (Retreival-Augmented Generation) et des travaux en cours sur la traduction automatique augmentée par la récupération d’exemples partageant des similarités avec la phrase à traduire.

Bio

Benoît Sagot, polytechnicien, devient docteur en informatique de l’Université Paris–Diderot en 2006. Il intègre alors l’Inria comme chercheur spécialisé en traitement automatique des langues (TAL), dans ce qui est aujourd’hui le centre Inria de Paris. Il y dirige l’équipe ALPAGE de 2014 à 2016, équipe commune avec l’Université Paris-Diderot, puis crée l’équipe ALMAnaCH, dont il est le directeur. Il est également titulaire d’une chaire dans l’institut PRAIRIE dédié à la recherche en intelligence artificielle. Il est professeur invité au Collège de France pour l’année universitaire 2023-2024 sur la chaire annuelle « Informatique et sciences numériques ». Ses travaux de recherche, initialement tournés vers l’analyse syntaxique, les grammaires formelles et le développement de ressources linguistiques, évoluent à l’image de son domaine de recherche vers des approches s’appuyant sur l’apprentissage automatique puis l’apprentissage profond. Il s’intéresse actuellement à la conception et à l’apprentissage de modèles de langue ainsi qu’à leur mise en œuvre, notamment en traduction automatique et en simplification de textes, tout en explorant l’interface entre texte et parole et entre texte et image. Il poursuit également le développement de ressources linguistiques et des recherches en linguistique computationnelle. Ses travaux font une place particulière à la langue française dans toute sa diversité, mais également aux enjeux liés aux langues moins dotées, notamment aux autres langues de France.


Europeana - challenges, progrès et perspectives pour service européen d’accès collections patrimoniales

 Jeudi 4 avril

Antoine Isaac
R&D manager à Europeana Foundation
Pays-Bas
Website

Résumé

Europeana vise à rendre accessible à un large public le patrimoine culturel numérisé provenant de milliers de musées, bibliothèques et archives dans toute l’Europe. Dans cette présentation, nous allons en explorer certains dessous. J’aborderai notre approche pour proposer un service de recherche multilingue pour ces collections, les nombreuses difficultés que nous rencontrons pour exploiter les métadonnées fournies à Europeana, ainsi que les efforts fournis par nos partenaires de l’espace européen commun des données pour le patrimoine culturel. Dans la perspective d’engager une discussion avec le public, je présenterai également nos efforts pour acquérir des données d’utilisation qui permettront de mieux mesurer la performance de notre portail de recherche.

Bio

R&D manager à Europeana Foundation, je suis impliqué dans la coordination du volet R&D des projets européens gravitant autour d’Europeana, touchant aux problématiques du multilinguisme, de l’IA et de l’enrichissement des métadonnées. Depuis une vingtaine d’années, je travaille à l’utilisation du Web sémantique et des technologies de données liées dans le domaine de la culture, en particulier pour la représentation et l’interopérabilité des collections et de leurs vocabulaires. J’ai participé aux travaux du W3C au sein des groupes de travail SKOS, Library Linked Data, Data on the Web Best Practices, et Data Exchange. Je suis également actif dans l’initiative International Image Interoperability Framework (IIIF).