L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, ModĂ©lisation, Validation, Administration des RĂ©seaux
présentent
lâAVIS DE SOUTENANCE de Monsieur Yannis TEVISSEN
AutorisĂ© Ă prĂ©senter ses travaux en vue de lâobtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă TĂ©lĂ©com SudParis en :
Signal, Images, Automatique et robotique
« Diarisation multimodale : vers des modÚles robustes et justes en contexte réel »
le LUNDI 4 DĂCEMBRE 2023 Ă 14h30
Ă
Amphi 7
Telecom Paris, 19 Pl. Marguerite Perey, 91120, Palaiseau
https://meet.google.com/egw-ienb-bch
Membres du jury :
M. Björn SCHULLER, Professeur, Imperial College London, ROYAUME-UNI – Rapporteur
M. Sylvain MEIGNIER, Professeur des universitĂ©s, Laboratoire dâInformatique de lâUniversitĂ© du Mans, FRANCE – Rapporteur
Mme Dijana PETROVSKA, MaĂźtre de confĂ©rences, Telecom SudParis, FRANCE – Examinateur
M. JĂ©rĂŽme BOUDY, Professeur, Telecom SudParis, FRANCE – Directeur de these
M. GĂ©rard CHOLLET, Directeur de recherche Ă©mĂ©rite, Telecom SudParis, FRANCE – CoDirecteur de these
M. HervĂ© BREDIN, ChargĂ© de recherche, IRIT, FRANCE – Examinateur
« Diarisation multimodale : vers des modÚles robustes et justes en contexte réel »
présenté par Monsieur Yannis TEVISSEN
Résumé :
La diarisation du locuteur, câest Ă dire la tache de dĂ©terminer automatiquement « qui parle, quand ? » dans un enregistrement audio ou vidĂ©o, est un des piliers des systĂšmes modernes dâanalyse des conversations. A la tĂ©lĂ©vision, les contenus diffusĂ©s sont divers et couvrent Ă peu prĂšs tous les types de conversations, de la discussion calme entre deux personnes aux dĂ©bats passionnĂ©s en passant par les interviews en terrain de guerre. Lâarchivage et lâindexation de ces contenus, rĂ©alisĂ©s par la sociĂ©tĂ© Newsbridge, requiĂšrent des mĂ©thodes de traitement robustes et justes pour les analyser. Dans ce travail, nous prĂ©sentons deux nouvelles mĂ©thodes permettant dâamĂ©liorer la robustesse des systĂšmes via des approches de fusion. La premiĂšre se concentre sur la dĂ©tection dâactivitĂ© vocale, prĂ©traitement nĂ©cessaire Ă tout systĂšme de diarisation. La seconde est une approche multimodale qui tire notamment parti des derniĂšres avancĂ©es en traitement du langage naturel. Nous voyons Ă©galement que les rĂ©centes avancĂ©es des systĂšmes de diarisation rendent lâutilisation de la diarisation du locuteur rĂ©aliste y compris dans des secteurs critiques tels que lâanalyse de larges archives audiovisuelles ou le maintien Ă domicile de personnes ĂągĂ©es. Enfin ce travail prĂ©sente une nouvelle mĂ©thode dâĂ©valuation de la justesse algorithmique de la diarisation du locuteur en vue de rendre son utilisation plus responsable.
Abstract :
Speaker diarization, or the task of automatically determining « who spoke, when? » in an audio or video recording, is one of the pillars of modern conversation analysis systems. On television, the content broadcasted are very diverse and covers about every type of conversation, from calm discussions between two people to impassioned debates and wartime interviews. The archiving and indexing of this content, carried out by the Newsbridge company, requires robust and fair processing methods to analyze them. In this work, we present two new methods for improving systems robustness via fusion approaches. The first method focuses on voice activity detection, a necessary pre-processing step for every diarization system. The second is a multimodal approach that takes advantage of the latest advances in natural language processing. We also show that recent advances in diarization systems make the use of speaker diarization realistic, even in critical sectors such as the analysis of large audiovisual archives or the home care of the elderly. Finally, this work shows a new method for evaluating the algorithmic fairness of speaker diarization, with the objective to make its use more responsible.