AVIS DE SOUTENANCE de Monsieur Yannis TEVISSEN

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, ModĂ©lisation, Validation, Administration des RĂ©seaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Yannis TEVISSEN

AutorisĂ© Ă  prĂ©senter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă  TĂ©lĂ©com SudParis en :

Signal, Images, Automatique et robotique

« Diarisation multimodale : vers des modÚles robustes et justes en contexte réel »

le LUNDI 4 DÉCEMBRE 2023 Ă  14h30

Ă 

Amphi 7
Telecom Paris, 19 Pl. Marguerite Perey, 91120, Palaiseau
https://meet.google.com/egw-ienb-bch

Membres du jury :

M. Björn SCHULLER, Professeur, Imperial College London, ROYAUME-UNI – Rapporteur
M. Sylvain MEIGNIER, Professeur des universitĂ©s, Laboratoire d’Informatique de l’UniversitĂ© du Mans, FRANCE – Rapporteur
Mme Dijana PETROVSKA, MaĂźtre de confĂ©rences, Telecom SudParis, FRANCE – Examinateur
M. JĂ©rĂŽme BOUDY, Professeur, Telecom SudParis, FRANCE – Directeur de these
M. GĂ©rard CHOLLET, Directeur de recherche Ă©mĂ©rite, Telecom SudParis, FRANCE – CoDirecteur de these
M. HervĂ© BREDIN, ChargĂ© de recherche, IRIT, FRANCE – Examinateur

« Diarisation multimodale : vers des modÚles robustes et justes en contexte réel »

présenté par Monsieur Yannis TEVISSEN

Résumé :

La diarisation du locuteur, c’est Ă  dire la tache de dĂ©terminer automatiquement « qui parle, quand ? » dans un enregistrement audio ou vidĂ©o, est un des piliers des systĂšmes modernes d’analyse des conversations. A la tĂ©lĂ©vision, les contenus diffusĂ©s sont divers et couvrent Ă  peu prĂšs tous les types de conversations, de la discussion calme entre deux personnes aux dĂ©bats passionnĂ©s en passant par les interviews en terrain de guerre. L’archivage et l’indexation de ces contenus, rĂ©alisĂ©s par la sociĂ©tĂ© Newsbridge, requiĂšrent des mĂ©thodes de traitement robustes et justes pour les analyser. Dans ce travail, nous prĂ©sentons deux nouvelles mĂ©thodes permettant d’amĂ©liorer la robustesse des systĂšmes via des approches de fusion. La premiĂšre se concentre sur la dĂ©tection d’activitĂ© vocale, prĂ©traitement nĂ©cessaire Ă  tout systĂšme de diarisation. La seconde est une approche multimodale qui tire notamment parti des derniĂšres avancĂ©es en traitement du langage naturel. Nous voyons Ă©galement que les rĂ©centes avancĂ©es des systĂšmes de diarisation rendent l’utilisation de la diarisation du locuteur rĂ©aliste y compris dans des secteurs critiques tels que l’analyse de larges archives audiovisuelles ou le maintien Ă  domicile de personnes ĂągĂ©es. Enfin ce travail prĂ©sente une nouvelle mĂ©thode d’évaluation de la justesse algorithmique de la diarisation du locuteur en vue de rendre son utilisation plus responsable.


Abstract :

Speaker diarization, or the task of automatically determining « who spoke, when? » in an audio or video recording, is one of the pillars of modern conversation analysis systems. On television, the content broadcasted are very diverse and covers about every type of conversation, from calm discussions between two people to impassioned debates and wartime interviews. The archiving and indexing of this content, carried out by the Newsbridge company, requires robust and fair processing methods to analyze them. In this work, we present two new methods for improving systems robustness via fusion approaches. The first method focuses on voice activity detection, a necessary pre-processing step for every diarization system. The second is a multimodal approach that takes advantage of the latest advances in natural language processing. We also show that recent advances in diarization systems make the use of speaker diarization realistic, even in critical sectors such as the analysis of large audiovisual archives or the home care of the elderly. Finally, this work shows a new method for evaluating the algorithmic fairness of speaker diarization, with the objective to make its use more responsible.