AVIS DE SOUTENANCE de Madame Zhenjiao LIU

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, ModĂ©lisation, Validation, Administration des RĂ©seaux

présentent

l’AVIS DE SOUTENANCE de Madame Zhenjiao LIU

AutorisĂ©e Ă  prĂ©senter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă  TĂ©lĂ©com SudParis en :

Informatique

« Clustering de donnĂ©es multivues incomplètes Ă  l’aide de techniques de mining de donnĂ©es cachĂ©es et de fusion »

le LUNDI 18 DÉCEMBRE 2023 Ă  10h00

zoom
online zoom link:https://zoom.us/j/2445226856

Membres du jury :

M. Noel CRESPI, Professeur, TĂ©lĂ©com SudParis, FRANCE – Directeur de these
Mme Praboda RAJAPAKSHA, MaĂ®tre de confĂ©rences, Aberystwyth University, ROYAUME-UNI – Co-encadrant de these
M. Luis  SANCHEZ, Associate Professor, University of Cantabria, ESPAGNE – Examinateur
M. GYU MYOUNG LEE, Professeur, Liverpool John Moores University,, ROYAUME-UNI – Examinateur
M. Abdelhamid MELLOUK, Professor, University of Paris-Est (UPEC), FRANCE – Rapporteur
M. Lei  WANG, Professeur, Dalian University of Technology, CHINE – Rapporteur

« Clustering de donnĂ©es multivues incomplètes Ă  l’aide de techniques de mining de donnĂ©es cachĂ©es et de fusion »

présenté par Madame Zhenjiao LIU

Résumé :

Le regroupement de donnĂ©es multivues incomplètes est un axe de recherche majeur dans le domaines de l’exploration de donnĂ©es et de l’apprentissage automatique. Dans les applications pratiques, nous sommes souvent confrontĂ©s Ă  des situations oĂą seule une partie des donnĂ©es modales peut ĂŞtre obtenue ou lorsqu’il y a des valeurs manquantes. La fusion de donnĂ©es est une mĂ©thode clef pour l’exploration d’informations multivues incomplètes. RĂ©soudre le problème de l’extraction d’informations multivues incomplètes de manière ciblĂ©e, parvenir Ă  une collaboration flexible entre les vues visibles et les vues cachĂ©es partagĂ©es, et amĂ©liorer la robustesse sont des dĂ©fis. Cette thèse se concentre sur trois aspects : l’exploration de donnĂ©es cachĂ©es, la fusion collaborative et l’amĂ©lioration de la robustesse du regroupement. Les principales contributions sont les suivantes : 1) Exploration de donnĂ©es cachĂ©es pour les donnĂ©es multi-vues incomplètes : les algorithmes existants ne peuvent pas utiliser pleinement l’observation des informations dans et entre les vues, ce qui entraĂ®ne la perte d’une grande quantitĂ© d’informations. Nous proposons donc un nouveau modèle de regroupement multi-vues incomplet IMC-NLT (Incomplete Multi-view Clustering Based on NMF and Low-Rank Tensor Fusion) basĂ© sur la factorisation de matrices non nĂ©gatives et la fusion de tenseurs de faible rang. 2) Fusion collaborative pour les donnĂ©es multivues incomplètes : notre approche pour rĂ©soudre ce problème est le regroupement multivues incomplet par reprĂ©sentation Ă  faible rang. L’algorithme est basĂ© sur une reprĂ©sentation Ă©parse de faible rang et une reprĂ©sentation de sous-espace, dans laquelle les donnĂ©es manquantes sont complĂ©tĂ©es en utilisant les donnĂ©es d’une modalitĂ© et les donnĂ©es connexes d’autres modalitĂ©s. 3) AmĂ©lioration de la robustesse du regroupement pour les donnĂ©es multivues incomplètes : nous proposons une fusion de la convolution graphique et des goulots d’Ă©tranglement de l’information (apprentissage de la reprĂ©sentation multivues incomplète via le goulot d’Ă©tranglement de l’information). Nous introduisons la thĂ©orie du goulot d’Ă©tranglement de l’information afin de filtrer les donnĂ©es parasites contenant des dĂ©tails non pertinents et de ne conserver que les Ă©lĂ©ments les plus pertinents. Nous intĂ©grons les informations sur la structure du graphe basĂ©es sur les points d’ancrage dans les informations sur le graphe local. Le modèle intègre des reprĂ©sentations multiples Ă  l’aide de goulets d’Ă©tranglement de l’information, rĂ©duisant ainsi l’impact des informations redondantes dans les donnĂ©es.

Abstract :

Incomplete multi-view data clustering is a research direction that attracts attention in the fields of data mining and machine learning. In practical applications, we often face situations where only part of the modal data can be obtained or there are missing values. Data fusion is an important method for incomplete multi-view information mining. Solving for incomplete multi-view information mining in a targeted manner, achieving flexible collaboration between visible views and shared hidden views, and improving the robustness have become quite challenging . This thesis focuses on three aspects: hidden data mining, collaborative fusion, and enhancing the robustness of clustering. The main contributions are as follows: 1. Hidden data mining for incomplete multi-view data: existing algorithms cannot make full use of the observation of information within and between views, resulting in the loss of a large amount of valuable information, and so we propose a new incomplete multi-view clustering model IMC-NLT (Incomplete Multi-view Clustering Based on NMF and Low-Rank Tensor Fusion) based on non-negative matrix factorization and low-rank tensor fusion. 2. Collaborative fusion for incomplete multi-view data: our approach to address this issue is Incomplete Multi-view Co-Clustering by Sparse Low-Rank Representation. The algorithm is based on sparse low-rank representation and subspace representation, in which jointly-missing data is filled using data within a modality and related data from other modalities. 3. Enhancing the clustering robustness for incomplete multi-view data: we offer a fusion of graph convolution and information bottlenecks (Incomplete Multi-view Representation Learning via Information Bottleneck and Anchor Graph GCN – IMRL-IG). First, we introduce the information bottleneck theory to filter out the noise data with irrelevant details and retain only the most relevant feature items. Next, we integrate the graph structure information based on anchor points into the local graph information of the state fused into the shared information representation and the information representation learning process of the local specific view, a process which can balance the robustness of the learned features and improve the robustness. Finally, the model integrates multiple representations with the help of information bottlenecks, reducing the impact of redundant information in the data.