AVIS DE SOUTENANCE de Monsieur Wenhao SHAO

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, ModĂ©lisation, Validation, Administration des RĂ©seaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Wenhao SHAO

AutorisĂ© Ă  prĂ©senter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă  TĂ©lĂ©com SudParis en :

Informatique

« AmĂ©lioration de la dĂ©tection d’anomalies vidĂ©o basĂ©e sur des technique avancĂ©es d’Apprentissage Profond »

le MARDI 21 NOVEMBRE 2023 Ă  10h00

Ă  online https://zoom.us/j/2445226856

Membres du jury :

M. Noel CRESPI, Professor, Institut Polytechnique de Paris TĂ©lĂ©com SudParis, FRANCE – Directeur de these
Mme Rajapksha PRABODA, MaĂ®tre de recherche, Institut Polytechnique de Paris TĂ©lĂ©com SudParis, FRANCE – Co-encadrant de these
M. Shiping WANG, Professor, Fuzhou university, CHINE – Rapporteur
M. Ioan Marius BILASCO, MaĂ®tre de confĂ©rences, UniversitĂ© de Lille, FRANCE – Rapporteur
M. Gu BIN, MaĂ®tresse de confĂ©rences, Mohamed bin Zayed University of AI, ARABIE SAOUDITE – Examinateur
Mme Patricia  DESGREYS, Professor, Institut Polytechnique de Paris Telecom Paris, FRANCE – Examinateur

« AmĂ©lioration de la dĂ©tection d’anomalies vidĂ©o basĂ©e sur des technique avancĂ©es d’Apprentissage Profond »

présenté par Monsieur Wenhao SHAO

Résumé :

La sĂ©curitĂ© est une prĂ©occupation majeure dans diffĂ©rents domaines, et le dĂ©ploiement de systèmes de surveillance en temps rĂ©el permet de relever ce dĂ©fi. En utilisant des techniques d’apprentissage profond, il permet de reconnaĂ®tre efficacement les Ă©vĂ©nements anormaux. Cependant, mĂŞme avec les avancĂ©es actuelles des mĂ©thodes de dĂ©tection des anomalies, distinguer les Ă©vĂ©nements anormaux des Ă©vĂ©nements normaux dans les scĂ©narios du monde rĂ©el reste un dĂ©fi en raison d’évĂ©nements anormaux rares, visuellement diversifiĂ©s et non reconnaissables de façon prĂ©visible. Cela est particulièrement vrai lorsque l’on s’appuie sur des mĂ©thodes supervisĂ©es, oĂą le manque de donnĂ©es d’anomalies labelisĂ©es pose un problème important pour distinguer les vidĂ©os normales des vidĂ©os anormales. Par consĂ©quent, les approches de dĂ©tection d’anomalies les plus rĂ©centes utilisent des ensembles de donnĂ©es existants pour concevoir ou apprendre un modèle qui capture les modèles normaux, ce qui permet ensuite d’identifier les modèles anormaux inconnus. Au cours de la phase de conception du modèle, il est essentiel de labelliser les vidĂ©os avec des attributs tels qu’une apparence anormale, un comportement ou des catĂ©gories cibles qui s’Ă©cartent de manière significative des donnĂ©es normales, en les marquant comme des anomalies. Outre le manque de donnĂ©es labellisĂ©es, trois autres dĂ©fis principaux ont Ă©tĂ© identifiĂ©s dans la littĂ©rature : 1) la reprĂ©sentation insuffisante des caractĂ©ristiques temporelles, 2) le manque de prĂ©cision dans le positionnement des Ă©vĂ©nements anormaux et 3) l’absence d’informations sur le comportement. Nous avons explorĂ© les applications des nouvelles technologies de traitement vidĂ©o, notamment la reconnaissance des actions, la dĂ©tection des cibles, l’extraction des caractĂ©ristiques du flux optique, l’apprentissage de la reprĂ©sentation et l’apprentissage contrastif, afin de les utiliser dans les modèles de dĂ©tection des anomalies vidĂ©o. Les modèles que nous proposons sont analysĂ©s de manière comparative avec les modèles de rĂ©fĂ©rence. Cette analyse comparative est rĂ©alisĂ©e Ă  l’aide de jeux de donnĂ©es publics courants, notamment UCSD(Ped2), Avenue, UCF-Crime et Shanghaitech. La première contribution relève le premier point dĂ©crit ci-dessus en introduisant un rĂ©seau convolutionnel temporel (TCN) amĂ©liorĂ©. Ce nouveau modèle de rĂ©seau convolutionnel temporel apprend les caractĂ©ristiques dynamiques de la vidĂ©o et les optimise afin d’attĂ©nuer les erreurs dues aux poids initiaux appris de manière contrastive. Cette mĂ©thode amĂ©liore la capacitĂ© globale des modèles faiblement supervisĂ©s en rĂ©duisant la perte causĂ©e par les paramètres initiaux dans l’apprentissage contrastif. NĂ©anmoins, l’apprentissage faiblement supervisĂ© ne fait que rĂ©duire la dĂ©pendance Ă  l’Ă©gard des donnĂ©es labellisĂ©es, mais ne l’Ă©limine pas complètement. C’est pourquoi nos deux contributions suivantes s’appuient sur l’apprentissage non supervisĂ© pour relever les deux autres dĂ©fis mentionnĂ©s ci-dessus. La deuxième contribution combine le mĂ©canisme d’auto-attention pour donner la prioritĂ© aux poids des zones prĂ©sentant des fluctuations dynamiques Ă©videntes dans les images. Lors des tests, les zones anormales sont localisĂ©es en comparant les fonctions de dĂ©tection et de perte d’objets. La troisième contribution explore l’intĂ©gration de modèles de rĂ©seaux d’apprentissage collaboratifs, qui assurent la cohĂ©rence entre les informations sur le flux optique et les informations sur l’apparence. Cette intĂ©gration vise Ă  amĂ©liorer les capacitĂ©s de capture spatio-temporelle des modèles non supervisĂ©s. Les performances et les capacitĂ©s globales du modèle non supervisĂ© sont considĂ©rablement amĂ©liorĂ©es par rapport aux autres modèles de base.

Abstract :

Security in public spaces is a primary concern across different domains and the deployment of real-time monitoring systems addresses this challenge. Video surveillance systems employing deep learning techniques allows for the effective recognition of anomaly events. However, even with the current advances in anomaly detection methods, distinguishing abnormal events from normal events in real-world scenarios remains a challenge because they often involve rare, visually diverse, and unrecognizable abnormal events. This is particularly true when relying on supervised methods, where the lack of sufficient labeled anomaly data poses a significant challenge for distinguishing between normal and abnormal videos. As a result, state-of-the-art anomaly detection approaches utilize existing datasets to design or learn a model that captures normal patterns, which is then helpful in identifying unknown abnormal patterns. During the model design stage, it is crucial to label videos with attributes such as abnormal appearance, behavior, or target categories that deviate significantly from normal data, marking them as anomalies. In addition to the lack of labeled data, we identified three challenges from the literature: 1) insufficient representation of temporal feature, 2) lack of precise positioning of abnormal events and 3) lack the consistency research of temporal feature and appearance feature. The objective of my thesis is to propose and investigate advanced video anomaly detection methods by addressing the aforementioned challenges using novel concepts and utilizing weak supervision and unsupervised models rather than relying on supervised models. We actively explored the applications of new video processing technologies, including action recognition, target detection, optical flow feature extraction, representation learning, and contrastive learning in order to utilize them in video anomaly detection models. Our proposed models comparatively analysed with baseline models. This comparative analysis are conducted using prevalent public datasets, including UCSD(Ped2), Avenue, UCF-Crime, and Shanghaitech. The first contribution addresses the first challenge outlined above by introducing an enhanced Temporal Convolutional Network (TCN). This novel TCN model learns dynamic video features and optimizes features to mitigate errors due to contrastive learned initial weights. This method enhances the overall capability of weakly supervised models by reducing the loss caused by initial parameters in contrastive learning. Nevertheless, weakly supervised learning only reduces the reliance on labeled data but does not eliminate the dependence on such data. Hence, our subsequent two contributions rely on unsupervised learning to addressing the other two challenges mentioned above. The second contribution combines the self-attention mechanism to prioritize the weights of areas with obvious dynamic fluctuations in frames. And, during the testing, abnormal areas are located through comparison of object detection and loss functions. The combination of self-attention mechanism and object detection significantly improves the detection accuracy and expands the functionality. The third contribution explores the integration of collaborative teaching network models, which bridges consistency between optical flow information and appearance information. This integration aims to enhance the spatio-temporal capture capabilities of unsupervised models. The overall performance and capabilities of the unsupervised model are significantly enhanced compared to the other baseline models.