AVIS DE SOUTENANCE de Madame Kaouther OUENNICHE

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR РServices r̩partis, Architectures, Mod̩lisation, Validation, Administration des R̩seaux

présentent

l’AVIS DE SOUTENANCE de Madame Kaouther OUENNICHE

Autorisée à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :

Mathématiques et Informatique

« Analyse multimodale par apprentissage profond pour la production audiovisuelle »

le MARDI 19 DÉCEMBRE 2023 Ã  9h30

à

C06
T̩l̩com SudParis 9 Rue Charles Fourier Р91000 Evry-Courcouronnes

Membres du jury :

M. Titus ZAHARIA, Professeur, Télécom SudParis, FRANCE – Directeur de these
M. MOHAMED DAOUDI, Professeur, IMT Nord-Europe, FRANCE – Rapporteur
M. AMEL BEN AZZA, Professeur, SUPCOM, TUNISIE – Rapporteur
Mme JENNY BENOIS-PINEAU, Professeure, LABRI, Université de Bordeaux, FRANCE – Examinateur
M. Andrei BURSUC , Docteur, VALEO AI, FRANCE – Examinateur
Mme RUXANDRA TAPU, Maître de conférences, Télécom sud Paris, FRANCE – Co-encadrant de these

« Analyse multimodale par apprentissage profond pour la production audiovisuelle »

présenté par Madame Kaouther OUENNICHE

Résumé :

Dans le contexte en constante évolution du contenu audiovisuel, la nécessité cruciale d’automatiser l’indexation et l’organisation des archives s’est imposée comme un objectif primordial. En réponse, cette recherche explore l’utilisation de techniques d’apprentissage profond pour automatiser l’extraction de métadonnées diverses dans les archives, améliorant ainsi leur accessibilité et leur réutilisation. La première contribution de cette recherche concerne la classification des mouvements de caméra. Il s’agit d’un aspect crucial de l’indexation du contenu, car il permet une catégorisation efficace et une récupération du contenu vidéo en fonction de la dynamique visuelle qu’il présente. L’approche proposée utilise des réseaux neuronaux convolutionnels 3D avec des blocs résiduels. Une approche semi-automatique pour la construction d’un ensemble de données fiable sur les mouvements de caméra à partir de vidéos disponibles au public est également présentée, réduisant au minimum le besoin d’intervention manuelle. De plus, la création d’un ensemble de données d’évaluation exigeant, comprenant des vidéos de la vie réelle tournées avec des caméras professionnelles à différentes résolutions, met en évidence la robustesse et la capacité de généralisation de la technique proposée, atteignant un taux de précision moyen de 94 %. La deuxième contribution se concentre sur la tâche de Video Question Answering. Dans ce contexte, notre framework intègre un transformers léger et un module de cross-modalité. Ce module utilise une corrélation croisée pour permettre un apprentissage réciproque entre les caractéristiques visuelles conditionnées par le texte et les caractéristiques textuelles conditionnées par la vidéo. De plus, un scénario de test adversarial avec des questions reformulées met en évidence la robustesse du modèle et son applicabilité dans le monde réel. Les résultats expérimentaux sur MSVD-QA et MSRVTT-QA, valident la méthodologie proposée, avec une précision moyenne de 45 % et 42 % respectivement. La troisième contribution de cette recherche aborde le problème de video captioning. Le travail introduit intègre un module de modality attention qui capture les relations complexes entre les données visuelles et textuelles à l’aide d’une corrélation croisée. De plus, l’intégration de l’attention temporelle améliore la capacité du modèle à produire des légendes significatives en tenant compte de la dynamique temporelle du contenu vidéo. Notre travail intègre également une tâche auxiliaire utilisant une fonction de perte contrastive, ce qui favorise la généralisation du modèle et une compréhension plus approfondie des relations intermodales et des sémantiques sous-jacentes. L’utilisation d’une architecture de transformer pour l’encodage et le décodage améliore considérablement la capacité du modèle à capturer les interdépendances entre les données textuelles et vidéo. La recherche valide la méthodologie proposée par une évaluation rigoureuse sur MSRVTT, atteignant des scores BLEU4, ROUGE et METEOR de 0,4408, 0,6291 et 0,3082 respectivement. Notre approche surpasse les méthodes de l’état de l’art, avec des gains de performance allant de 1,21 % à 1,52 % pour les trois métriques considérées. En conclusion, ce manuscrit offre une exploration holistique des techniques basées sur l’apprentissage profond pour automatiser l’indexation du contenu télévisuel, en abordant la nature laborieuse et chronophage de l’indexation manuelle. Les contributions englobent la classification des types de mouvements de caméra, la video question answering et la video captioning, faisant avancer collectivement l’état de l’art et fournissant des informations précieuses pour les chercheurs dans le domaine. Ces découvertes ont non seulement des applications pratiques pour la recherche et l’indexation de contenu, mais contribuent également à l’avancement plus large des méthodologies d’apprentissage profond dans le contexte multimodal.

Abstract :

Within the dynamic landscape of television content, the critical need to automate the indexing and organization of archives has emerged as a paramount objective. In response, this research explores the use of deep learning techniques to automate the extraction of diverse metadata from television archives, improving their accessibility and reuse. The first contribution of this research revolves around the classification of camera motion types. This is a crucial aspect of content indexing as it allows for efficient categorization and retrieval of video content based on the visual dynamics it exhibits. The novel approach proposed employs 3D convolutional neural networks with residual blocks, a technique inspired by action recognition methods. A semi-automatic approach for constructing a reliable camera motion dataset from publicly available videos is also presented, minimizing the need for manual intervention. Additionally, the creation of a challenging evaluation dataset, comprising real-life videos shot with professional cameras at varying resolutions, underlines the robustness and generalization power of the proposed technique, achieving an average accuracy rate of 94%. The second contribution centers on the demanding task of Video Question Answering. In this context, we explore the effectiveness of attention-based transformers for facilitating grounded multimodal learning. The challenge here lies in bridging the gap between the visual and textual modalities and mitigating the quadratic complexity of transformer models. To address these issues, a novel framework is introduced, which incorporates a lightweight transformer and a cross-modality module. This module leverages cross-correlation to enable reciprocal learning between text-conditioned visual features and video-conditioned textual features. Furthermore, an adversarial testing scenario with rephrased questions highlights the model’s robustness and real-world applicability. Experimental results on benchmark datasets, such as MSVD-QA and MSRVTT-QA, validate the proposed methodology, with an average accuracy of 45% and 42%, respectively, which represents notable improvements over existing approaches. The third contribution of this research addresses the multimodal video captioning problem, a critical aspect of content indexing. The introduced framework incorporates a modality-attention module that captures the intricate relationships between visual and textual data using cross-correlation. Moreover, the integration of temporal attention enhances the model’s ability to produce meaningful captions, considering the temporal dynamics of video content. Our work also incorporates an auxiliary task employing a contrastive loss function, which promotes model generalization and a deeper understanding of inter-modal relationships and underlying semantics. The utilization of a transformer architecture for encoding and decoding significantly enhances the model’s capacity to capture interdependencies between text and video data. The research validates the proposed methodology through rigorous evaluation on the MSRVTT benchmark, vi achieving BLEU4, ROUGE, and METEOR scores of 0.4408, 0.6291 and 0.3082, respectively. In comparison to state-of-the-art methods, this approach consistently outperforms, with performance gains ranging from 1.21% to 1.52% across the three metrics considered. In conclusion, this manuscript offers a holistic exploration of deep learning-based techniques to automate television content indexing, addressing the labor-intensive and time-consuming nature of manual indexing. The contributions encompass camera motion type classification, VideoQA, and multimodal video captioning, collectively advancing the state of the art and providing valuable insights for researchers in the field. These findings not only have practical applications for content retrieval and indexing but also contribute to the broader advancement of deep learning methodologies in the multimodal context.