AVIS DE SOUTENANCE de Madame Kaouther OUENNICHE

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, ModĂ©lisation, Validation, Administration des RĂ©seaux

présentent

l’AVIS DE SOUTENANCE de Madame Kaouther OUENNICHE

AutorisĂ©e Ă  prĂ©senter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă  TĂ©lĂ©com SudParis en :

Mathématiques et Informatique

« Analyse multimodale par apprentissage profond pour la production audiovisuelle »

le MARDI 19 DÉCEMBRE 2023 Ă  9h30

Ă 

C06
TĂ©lĂ©com SudParis 9 Rue Charles Fourier – 91000 Evry-Courcouronnes

Membres du jury :

M. Titus ZAHARIA, Professeur, TĂ©lĂ©com SudParis, FRANCE – Directeur de these
M. MOHAMED DAOUDI, Professeur, IMT Nord-Europe, FRANCE – Rapporteur
M. AMEL BEN AZZA, Professeur, SUPCOM, TUNISIE – Rapporteur
Mme JENNY BENOIS-PINEAU, Professeure, LABRI, UniversitĂ© de Bordeaux, FRANCE – Examinateur
M. Andrei BURSUC , Docteur, VALEO AI, FRANCE – Examinateur
Mme RUXANDRA TAPU, MaĂ®tre de confĂ©rences, TĂ©lĂ©com sud Paris, FRANCE – Co-encadrant de these

« Analyse multimodale par apprentissage profond pour la production audiovisuelle »

présenté par Madame Kaouther OUENNICHE

Résumé :

Dans le contexte en constante Ă©volution du contenu audiovisuel, la nĂ©cessitĂ© cruciale d’automatiser l’indexation et l’organisation des archives s’est imposĂ©e comme un objectif primordial. En rĂ©ponse, cette recherche explore l’utilisation de techniques d’apprentissage profond pour automatiser l’extraction de mĂ©tadonnĂ©es diverses dans les archives, amĂ©liorant ainsi leur accessibilitĂ© et leur rĂ©utilisation. La première contribution de cette recherche concerne la classification des mouvements de camĂ©ra. Il s’agit d’un aspect crucial de l’indexation du contenu, car il permet une catĂ©gorisation efficace et une rĂ©cupĂ©ration du contenu vidĂ©o en fonction de la dynamique visuelle qu’il prĂ©sente. L’approche proposĂ©e utilise des rĂ©seaux neuronaux convolutionnels 3D avec des blocs rĂ©siduels. Une approche semi-automatique pour la construction d’un ensemble de donnĂ©es fiable sur les mouvements de camĂ©ra Ă  partir de vidĂ©os disponibles au public est Ă©galement prĂ©sentĂ©e, rĂ©duisant au minimum le besoin d’intervention manuelle. De plus, la crĂ©ation d’un ensemble de donnĂ©es d’Ă©valuation exigeant, comprenant des vidĂ©os de la vie rĂ©elle tournĂ©es avec des camĂ©ras professionnelles Ă  diffĂ©rentes rĂ©solutions, met en Ă©vidence la robustesse et la capacitĂ© de gĂ©nĂ©ralisation de la technique proposĂ©e, atteignant un taux de prĂ©cision moyen de 94 %. La deuxième contribution se concentre sur la tâche de Video Question Answering. Dans ce contexte, notre framework intègre un transformers lĂ©ger et un module de cross-modalitĂ©. Ce module utilise une corrĂ©lation croisĂ©e pour permettre un apprentissage rĂ©ciproque entre les caractĂ©ristiques visuelles conditionnĂ©es par le texte et les caractĂ©ristiques textuelles conditionnĂ©es par la vidĂ©o. De plus, un scĂ©nario de test adversarial avec des questions reformulĂ©es met en Ă©vidence la robustesse du modèle et son applicabilitĂ© dans le monde rĂ©el. Les rĂ©sultats expĂ©rimentaux sur MSVD-QA et MSRVTT-QA, valident la mĂ©thodologie proposĂ©e, avec une prĂ©cision moyenne de 45 % et 42 % respectivement. La troisième contribution de cette recherche aborde le problème de video captioning. Le travail introduit intègre un module de modality attention qui capture les relations complexes entre les donnĂ©es visuelles et textuelles Ă  l’aide d’une corrĂ©lation croisĂ©e. De plus, l’intĂ©gration de l’attention temporelle amĂ©liore la capacitĂ© du modèle Ă  produire des lĂ©gendes significatives en tenant compte de la dynamique temporelle du contenu vidĂ©o. Notre travail intègre Ă©galement une tâche auxiliaire utilisant une fonction de perte contrastive, ce qui favorise la gĂ©nĂ©ralisation du modèle et une comprĂ©hension plus approfondie des relations intermodales et des sĂ©mantiques sous-jacentes. L’utilisation d’une architecture de transformer pour l’encodage et le dĂ©codage amĂ©liore considĂ©rablement la capacitĂ© du modèle Ă  capturer les interdĂ©pendances entre les donnĂ©es textuelles et vidĂ©o. La recherche valide la mĂ©thodologie proposĂ©e par une Ă©valuation rigoureuse sur MSRVTT, atteignant des scores BLEU4, ROUGE et METEOR de 0,4408, 0,6291 et 0,3082 respectivement. Notre approche surpasse les mĂ©thodes de l’Ă©tat de l’art, avec des gains de performance allant de 1,21 % Ă  1,52 % pour les trois mĂ©triques considĂ©rĂ©es. En conclusion, ce manuscrit offre une exploration holistique des techniques basĂ©es sur l’apprentissage profond pour automatiser l’indexation du contenu tĂ©lĂ©visuel, en abordant la nature laborieuse et chronophage de l’indexation manuelle. Les contributions englobent la classification des types de mouvements de camĂ©ra, la video question answering et la video captioning, faisant avancer collectivement l’Ă©tat de l’art et fournissant des informations prĂ©cieuses pour les chercheurs dans le domaine. Ces dĂ©couvertes ont non seulement des applications pratiques pour la recherche et l’indexation de contenu, mais contribuent Ă©galement Ă  l’avancement plus large des mĂ©thodologies d’apprentissage profond dans le contexte multimodal.

Abstract :

Within the dynamic landscape of television content, the critical need to automate the indexing and organization of archives has emerged as a paramount objective. In response, this research explores the use of deep learning techniques to automate the extraction of diverse metadata from television archives, improving their accessibility and reuse. The first contribution of this research revolves around the classification of camera motion types. This is a crucial aspect of content indexing as it allows for efficient categorization and retrieval of video content based on the visual dynamics it exhibits. The novel approach proposed employs 3D convolutional neural networks with residual blocks, a technique inspired by action recognition methods. A semi-automatic approach for constructing a reliable camera motion dataset from publicly available videos is also presented, minimizing the need for manual intervention. Additionally, the creation of a challenging evaluation dataset, comprising real-life videos shot with professional cameras at varying resolutions, underlines the robustness and generalization power of the proposed technique, achieving an average accuracy rate of 94%. The second contribution centers on the demanding task of Video Question Answering. In this context, we explore the effectiveness of attention-based transformers for facilitating grounded multimodal learning. The challenge here lies in bridging the gap between the visual and textual modalities and mitigating the quadratic complexity of transformer models. To address these issues, a novel framework is introduced, which incorporates a lightweight transformer and a cross-modality module. This module leverages cross-correlation to enable reciprocal learning between text-conditioned visual features and video-conditioned textual features. Furthermore, an adversarial testing scenario with rephrased questions highlights the model’s robustness and real-world applicability. Experimental results on benchmark datasets, such as MSVD-QA and MSRVTT-QA, validate the proposed methodology, with an average accuracy of 45% and 42%, respectively, which represents notable improvements over existing approaches. The third contribution of this research addresses the multimodal video captioning problem, a critical aspect of content indexing. The introduced framework incorporates a modality-attention module that captures the intricate relationships between visual and textual data using cross-correlation. Moreover, the integration of temporal attention enhances the model’s ability to produce meaningful captions, considering the temporal dynamics of video content. Our work also incorporates an auxiliary task employing a contrastive loss function, which promotes model generalization and a deeper understanding of inter-modal relationships and underlying semantics. The utilization of a transformer architecture for encoding and decoding significantly enhances the model’s capacity to capture interdependencies between text and video data. The research validates the proposed methodology through rigorous evaluation on the MSRVTT benchmark, vi achieving BLEU4, ROUGE, and METEOR scores of 0.4408, 0.6291 and 0.3082, respectively. In comparison to state-of-the-art methods, this approach consistently outperforms, with performance gains ranging from 1.21% to 1.52% across the three metrics considered. In conclusion, this manuscript offers a holistic exploration of deep learning-based techniques to automate television content indexing, addressing the labor-intensive and time-consuming nature of manual indexing. The contributions encompass camera motion type classification, VideoQA, and multimodal video captioning, collectively advancing the state of the art and providing valuable insights for researchers in the field. These findings not only have practical applications for content retrieval and indexing but also contribute to the broader advancement of deep learning methodologies in the multimodal context.