L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux
présentent
l’AVIS DE SOUTENANCE de Monsieur Yannis TEVISSEN
Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :
Signal, Images, Automatique et robotique
« Diarisation multimodale : vers des modèles robustes et justes en contexte réel »
le LUNDI 4 DÉCEMBRE 2023 à 14h30
à
Amphi 7
Telecom Paris, 19 Pl. Marguerite Perey, 91120, Palaiseau
https://meet.google.com/egw-ienb-bch
Membres du jury :
M. Björn SCHULLER, Professeur, Imperial College London, ROYAUME-UNI – Rapporteur
M. Sylvain MEIGNIER, Professeur des universités, Laboratoire d’Informatique de l’Université du Mans, FRANCE – Rapporteur
Mme Dijana PETROVSKA, Maître de conférences, Telecom SudParis, FRANCE – Examinateur
M. Jérôme BOUDY, Professeur, Telecom SudParis, FRANCE – Directeur de these
M. Gérard CHOLLET, Directeur de recherche émérite, Telecom SudParis, FRANCE – CoDirecteur de these
M. Hervé BREDIN, Chargé de recherche, IRIT, FRANCE – Examinateur
« Diarisation multimodale : vers des modèles robustes et justes en contexte réel »
présenté par Monsieur Yannis TEVISSEN
Résumé :
La diarisation du locuteur, c’est à dire la tache de déterminer automatiquement « qui parle, quand ? » dans un enregistrement audio ou vidéo, est un des piliers des systèmes modernes d’analyse des conversations. A la télévision, les contenus diffusés sont divers et couvrent à peu près tous les types de conversations, de la discussion calme entre deux personnes aux débats passionnés en passant par les interviews en terrain de guerre. L’archivage et l’indexation de ces contenus, réalisés par la société Newsbridge, requièrent des méthodes de traitement robustes et justes pour les analyser. Dans ce travail, nous présentons deux nouvelles méthodes permettant d’améliorer la robustesse des systèmes via des approches de fusion. La première se concentre sur la détection d’activité vocale, prétraitement nécessaire à tout système de diarisation. La seconde est une approche multimodale qui tire notamment parti des dernières avancées en traitement du langage naturel. Nous voyons également que les récentes avancées des systèmes de diarisation rendent l’utilisation de la diarisation du locuteur réaliste y compris dans des secteurs critiques tels que l’analyse de larges archives audiovisuelles ou le maintien à domicile de personnes âgées. Enfin ce travail présente une nouvelle méthode d’évaluation de la justesse algorithmique de la diarisation du locuteur en vue de rendre son utilisation plus responsable.
Abstract :
Speaker diarization, or the task of automatically determining « who spoke, when? » in an audio or video recording, is one of the pillars of modern conversation analysis systems. On television, the content broadcasted are very diverse and covers about every type of conversation, from calm discussions between two people to impassioned debates and wartime interviews. The archiving and indexing of this content, carried out by the Newsbridge company, requires robust and fair processing methods to analyze them. In this work, we present two new methods for improving systems robustness via fusion approaches. The first method focuses on voice activity detection, a necessary pre-processing step for every diarization system. The second is a multimodal approach that takes advantage of the latest advances in natural language processing. We also show that recent advances in diarization systems make the use of speaker diarization realistic, even in critical sectors such as the analysis of large audiovisual archives or the home care of the elderly. Finally, this work shows a new method for evaluating the algorithmic fairness of speaker diarization, with the objective to make its use more responsible.