Détection de scènes remarquables dans un contexte des séries TV

Aman Berhe
Camille Guinaudeau
Claude Barras
DOI
10.24348/coria.2021.court_10
Résumé

Pour faciliter l’accès à une large quantité de données multimédia, il est souvent utile d’en extraire un résumé ou l’élément le plus saillant. Dans le cadre des séries télévisées, une manière d’extraire le résumé d’un épisode consiste à detecter les scènes les plus remarquables, c’est-à-dire celles qui apportent un changement radical au récit d’un épisode, avant de les combiner pour produire un résumé de l’épisode, de la saison ou de la série entière. L’aspect remarquable d’une scène ou, plus largement d’un document multimedia, est porté par ses différentes modalités – texte, parole et image – de façon conjointe ou non. Par ailleurs, une scène ne peut se définir comme remarquable qu’en comparaison des scènes qui l’entourent. Nous présentons dans cet article les premiers résultats sur la combinaison des différentes modalités et de la prise en compte du contexte pour extraire les scènes remarquables des deux premières saisons de la série Game of Thrones. Nous montrons que l’utilisation du contexte et de la prise en compte de la multimodalité permettent d’améliorer la détection de scènes remarquables.