L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux
présentent
l’AVIS DE SOUTENANCE de Madame Zhenjiao LIU
Autorisée à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :
Informatique
« Clustering de données multivues incomplètes à l’aide de techniques de mining de données cachées et de fusion »
le LUNDI 18 DÉCEMBRE 2023 à 10h00
zoom
online zoom link:https://zoom.us/j/2445226856
Membres du jury :
M. Noel CRESPI, Professeur, Télécom SudParis, FRANCE – Directeur de these
Mme Praboda RAJAPAKSHA, Maître de conférences, Aberystwyth University, ROYAUME-UNI – Co-encadrant de these
M. Luis SANCHEZ, Associate Professor, University of Cantabria, ESPAGNE – Examinateur
M. GYU MYOUNG LEE, Professeur, Liverpool John Moores University,, ROYAUME-UNI – Examinateur
M. Abdelhamid MELLOUK, Professor, University of Paris-Est (UPEC), FRANCE – Rapporteur
M. Lei WANG, Professeur, Dalian University of Technology, CHINE – Rapporteur
« Clustering de données multivues incomplètes à l’aide de techniques de mining de données cachées et de fusion »
présenté par Madame Zhenjiao LIU
Résumé :
Le regroupement de données multivues incomplètes est un axe de recherche majeur dans le domaines de l’exploration de données et de l’apprentissage automatique. Dans les applications pratiques, nous sommes souvent confrontés à des situations où seule une partie des données modales peut être obtenue ou lorsqu’il y a des valeurs manquantes. La fusion de données est une méthode clef pour l’exploration d’informations multivues incomplètes. Résoudre le problème de l’extraction d’informations multivues incomplètes de manière ciblée, parvenir à une collaboration flexible entre les vues visibles et les vues cachées partagées, et améliorer la robustesse sont des défis. Cette thèse se concentre sur trois aspects : l’exploration de données cachées, la fusion collaborative et l’amélioration de la robustesse du regroupement. Les principales contributions sont les suivantes : 1) Exploration de données cachées pour les données multi-vues incomplètes : les algorithmes existants ne peuvent pas utiliser pleinement l’observation des informations dans et entre les vues, ce qui entraîne la perte d’une grande quantité d’informations. Nous proposons donc un nouveau modèle de regroupement multi-vues incomplet IMC-NLT (Incomplete Multi-view Clustering Based on NMF and Low-Rank Tensor Fusion) basé sur la factorisation de matrices non négatives et la fusion de tenseurs de faible rang. 2) Fusion collaborative pour les données multivues incomplètes : notre approche pour résoudre ce problème est le regroupement multivues incomplet par représentation à faible rang. L’algorithme est basé sur une représentation éparse de faible rang et une représentation de sous-espace, dans laquelle les données manquantes sont complétées en utilisant les données d’une modalité et les données connexes d’autres modalités. 3) Amélioration de la robustesse du regroupement pour les données multivues incomplètes : nous proposons une fusion de la convolution graphique et des goulots d’étranglement de l’information (apprentissage de la représentation multivues incomplète via le goulot d’étranglement de l’information). Nous introduisons la théorie du goulot d’étranglement de l’information afin de filtrer les données parasites contenant des détails non pertinents et de ne conserver que les éléments les plus pertinents. Nous intégrons les informations sur la structure du graphe basées sur les points d’ancrage dans les informations sur le graphe local. Le modèle intègre des représentations multiples à l’aide de goulets d’étranglement de l’information, réduisant ainsi l’impact des informations redondantes dans les données.
Abstract :
Incomplete multi-view data clustering is a research direction that attracts attention in the fields of data mining and machine learning. In practical applications, we often face situations where only part of the modal data can be obtained or there are missing values. Data fusion is an important method for incomplete multi-view information mining. Solving for incomplete multi-view information mining in a targeted manner, achieving flexible collaboration between visible views and shared hidden views, and improving the robustness have become quite challenging . This thesis focuses on three aspects: hidden data mining, collaborative fusion, and enhancing the robustness of clustering. The main contributions are as follows: 1. Hidden data mining for incomplete multi-view data: existing algorithms cannot make full use of the observation of information within and between views, resulting in the loss of a large amount of valuable information, and so we propose a new incomplete multi-view clustering model IMC-NLT (Incomplete Multi-view Clustering Based on NMF and Low-Rank Tensor Fusion) based on non-negative matrix factorization and low-rank tensor fusion. 2. Collaborative fusion for incomplete multi-view data: our approach to address this issue is Incomplete Multi-view Co-Clustering by Sparse Low-Rank Representation. The algorithm is based on sparse low-rank representation and subspace representation, in which jointly-missing data is filled using data within a modality and related data from other modalities. 3. Enhancing the clustering robustness for incomplete multi-view data: we offer a fusion of graph convolution and information bottlenecks (Incomplete Multi-view Representation Learning via Information Bottleneck and Anchor Graph GCN – IMRL-IG). First, we introduce the information bottleneck theory to filter out the noise data with irrelevant details and retain only the most relevant feature items. Next, we integrate the graph structure information based on anchor points into the local graph information of the state fused into the shared information representation and the information representation learning process of the local specific view, a process which can balance the robustness of the learned features and improve the robustness. Finally, the model integrates multiple representations with the help of information bottlenecks, reducing the impact of redundant information in the data.