AVIS DE SOUTENANCE de Monsieur Wenhao SHAO

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Wenhao SHAO

Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :

Informatique

« Amélioration de la détection d’anomalies vidéo basée sur des technique avancées d’Apprentissage Profond »

le MARDI 21 NOVEMBRE 2023 à 10h00

à online https://zoom.us/j/2445226856

Membres du jury :

M. Noel CRESPI, Professor, Institut Polytechnique de Paris Télécom SudParis, FRANCE – Directeur de these
Mme Rajapksha PRABODA, Maître de recherche, Institut Polytechnique de Paris Télécom SudParis, FRANCE – Co-encadrant de these
M. Shiping WANG, Professor, Fuzhou university, CHINE – Rapporteur
M. Ioan Marius BILASCO, Maître de conférences, Université de Lille, FRANCE – Rapporteur
M. Gu BIN, Maîtresse de conférences, Mohamed bin Zayed University of AI, ARABIE SAOUDITE – Examinateur
Mme Patricia  DESGREYS, Professor, Institut Polytechnique de Paris Telecom Paris, FRANCE – Examinateur

« Amélioration de la détection d’anomalies vidéo basée sur des technique avancées d’Apprentissage Profond »

présenté par Monsieur Wenhao SHAO

Résumé :

La sécurité est une préoccupation majeure dans différents domaines, et le déploiement de systèmes de surveillance en temps réel permet de relever ce défi. En utilisant des techniques d’apprentissage profond, il permet de reconnaître efficacement les événements anormaux. Cependant, même avec les avancées actuelles des méthodes de détection des anomalies, distinguer les événements anormaux des événements normaux dans les scénarios du monde réel reste un défi en raison d’événements anormaux rares, visuellement diversifiés et non reconnaissables de façon prévisible. Cela est particulièrement vrai lorsque l’on s’appuie sur des méthodes supervisées, où le manque de données d’anomalies labelisées pose un problème important pour distinguer les vidéos normales des vidéos anormales. Par conséquent, les approches de détection d’anomalies les plus récentes utilisent des ensembles de données existants pour concevoir ou apprendre un modèle qui capture les modèles normaux, ce qui permet ensuite d’identifier les modèles anormaux inconnus. Au cours de la phase de conception du modèle, il est essentiel de labelliser les vidéos avec des attributs tels qu’une apparence anormale, un comportement ou des catégories cibles qui s’écartent de manière significative des données normales, en les marquant comme des anomalies. Outre le manque de données labellisées, trois autres défis principaux ont été identifiés dans la littérature : 1) la représentation insuffisante des caractéristiques temporelles, 2) le manque de précision dans le positionnement des événements anormaux et 3) l’absence d’informations sur le comportement. Nous avons exploré les applications des nouvelles technologies de traitement vidéo, notamment la reconnaissance des actions, la détection des cibles, l’extraction des caractéristiques du flux optique, l’apprentissage de la représentation et l’apprentissage contrastif, afin de les utiliser dans les modèles de détection des anomalies vidéo. Les modèles que nous proposons sont analysés de manière comparative avec les modèles de référence. Cette analyse comparative est réalisée à l’aide de jeux de données publics courants, notamment UCSD(Ped2), Avenue, UCF-Crime et Shanghaitech. La première contribution relève le premier point décrit ci-dessus en introduisant un réseau convolutionnel temporel (TCN) amélioré. Ce nouveau modèle de réseau convolutionnel temporel apprend les caractéristiques dynamiques de la vidéo et les optimise afin d’atténuer les erreurs dues aux poids initiaux appris de manière contrastive. Cette méthode améliore la capacité globale des modèles faiblement supervisés en réduisant la perte causée par les paramètres initiaux dans l’apprentissage contrastif. Néanmoins, l’apprentissage faiblement supervisé ne fait que réduire la dépendance à l’égard des données labellisées, mais ne l’élimine pas complètement. C’est pourquoi nos deux contributions suivantes s’appuient sur l’apprentissage non supervisé pour relever les deux autres défis mentionnés ci-dessus. La deuxième contribution combine le mécanisme d’auto-attention pour donner la priorité aux poids des zones présentant des fluctuations dynamiques évidentes dans les images. Lors des tests, les zones anormales sont localisées en comparant les fonctions de détection et de perte d’objets. La troisième contribution explore l’intégration de modèles de réseaux d’apprentissage collaboratifs, qui assurent la cohérence entre les informations sur le flux optique et les informations sur l’apparence. Cette intégration vise à améliorer les capacités de capture spatio-temporelle des modèles non supervisés. Les performances et les capacités globales du modèle non supervisé sont considérablement améliorées par rapport aux autres modèles de base.

Abstract :

Security in public spaces is a primary concern across different domains and the deployment of real-time monitoring systems addresses this challenge. Video surveillance systems employing deep learning techniques allows for the effective recognition of anomaly events. However, even with the current advances in anomaly detection methods, distinguishing abnormal events from normal events in real-world scenarios remains a challenge because they often involve rare, visually diverse, and unrecognizable abnormal events. This is particularly true when relying on supervised methods, where the lack of sufficient labeled anomaly data poses a significant challenge for distinguishing between normal and abnormal videos. As a result, state-of-the-art anomaly detection approaches utilize existing datasets to design or learn a model that captures normal patterns, which is then helpful in identifying unknown abnormal patterns. During the model design stage, it is crucial to label videos with attributes such as abnormal appearance, behavior, or target categories that deviate significantly from normal data, marking them as anomalies. In addition to the lack of labeled data, we identified three challenges from the literature: 1) insufficient representation of temporal feature, 2) lack of precise positioning of abnormal events and 3) lack the consistency research of temporal feature and appearance feature. The objective of my thesis is to propose and investigate advanced video anomaly detection methods by addressing the aforementioned challenges using novel concepts and utilizing weak supervision and unsupervised models rather than relying on supervised models. We actively explored the applications of new video processing technologies, including action recognition, target detection, optical flow feature extraction, representation learning, and contrastive learning in order to utilize them in video anomaly detection models. Our proposed models comparatively analysed with baseline models. This comparative analysis are conducted using prevalent public datasets, including UCSD(Ped2), Avenue, UCF-Crime, and Shanghaitech. The first contribution addresses the first challenge outlined above by introducing an enhanced Temporal Convolutional Network (TCN). This novel TCN model learns dynamic video features and optimizes features to mitigate errors due to contrastive learned initial weights. This method enhances the overall capability of weakly supervised models by reducing the loss caused by initial parameters in contrastive learning. Nevertheless, weakly supervised learning only reduces the reliance on labeled data but does not eliminate the dependence on such data. Hence, our subsequent two contributions rely on unsupervised learning to addressing the other two challenges mentioned above. The second contribution combines the self-attention mechanism to prioritize the weights of areas with obvious dynamic fluctuations in frames. And, during the testing, abnormal areas are located through comparison of object detection and loss functions. The combination of self-attention mechanism and object detection significantly improves the detection accuracy and expands the functionality. The third contribution explores the integration of collaborative teaching network models, which bridges consistency between optical flow information and appearance information. This integration aims to enhance the spatio-temporal capture capabilities of unsupervised models. The overall performance and capabilities of the unsupervised model are significantly enhanced compared to the other baseline models.