AVIS DE SOUTENANCE de Madame Zhenjiao LIU

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR РServices répartis, Architectures, Modélisation, Validation, Administration des Réseaux

présentent

l’AVIS DE SOUTENANCE de Madame Zhenjiao LIU

Autoris√©e √† pr√©senter ses travaux en vue de l‚Äôobtention du Doctorat de l’Institut Polytechnique de Paris, pr√©par√© √† T√©l√©com SudParis en :

Informatique

¬ę Clustering de donn√©es multivues incompl√®tes √† l’aide de techniques de mining de donn√©es cach√©es et de fusion ¬Ľ

le LUNDI 18 D√ČCEMBRE 2023 √† 10h00

zoom
online zoom linkÔľöhttps://zoom.us/j/2445226856

Membres du jury :

M. Noel CRESPI, Professeur, T√©l√©com SudParis, FRANCE – Directeur de these
Mme Praboda RAJAPAKSHA, Ma√ģtre de conf√©rences, Aberystwyth University, ROYAUME-UNI – Co-encadrant de these
M. Luis  SANCHEZ, Associate Professor, University of Cantabria, ESPAGNE – Examinateur
M. GYU MYOUNG LEE, Professeur, Liverpool John Moores University,, ROYAUME-UNI – Examinateur
M. Abdelhamid MELLOUK, Professor, University of Paris-Est (UPEC), FRANCE – Rapporteur
M. Lei  WANG, Professeur, Dalian University of Technology, CHINE – Rapporteur

¬ę Clustering de donn√©es multivues incompl√®tes √† l’aide de techniques de mining de donn√©es cach√©es et de fusion ¬Ľ

présenté par Madame Zhenjiao LIU

Résumé :

Le regroupement de donn√©es multivues incompl√®tes est un axe de recherche majeur dans le domaines de l’exploration de donn√©es et de l’apprentissage automatique. Dans les applications pratiques, nous sommes souvent confront√©s √† des situations o√Ļ seule une partie des donn√©es modales peut √™tre obtenue ou lorsqu’il y a des valeurs manquantes. La fusion de donn√©es est une m√©thode clef pour l’exploration d’informations multivues incompl√®tes. R√©soudre le probl√®me de l’extraction d’informations multivues incompl√®tes de mani√®re cibl√©e, parvenir √† une collaboration flexible entre les vues visibles et les vues cach√©es partag√©es, et am√©liorer la robustesse sont des d√©fis. Cette th√®se se concentre sur trois aspects : l’exploration de donn√©es cach√©es, la fusion collaborative et l’am√©lioration de la robustesse du regroupement. Les principales contributions sont les suivantes : 1) Exploration de donn√©es cach√©es pour les donn√©es multi-vues incompl√®tes : les algorithmes existants ne peuvent pas utiliser pleinement l’observation des informations dans et entre les vues, ce qui entra√ģne la perte d’une grande quantit√© d’informations. Nous proposons donc un nouveau mod√®le de regroupement multi-vues incomplet IMC-NLT (Incomplete Multi-view Clustering Based on NMF and Low-Rank Tensor Fusion) bas√© sur la factorisation de matrices non n√©gatives et la fusion de tenseurs de faible rang. 2) Fusion collaborative pour les donn√©es multivues incompl√®tes : notre approche pour r√©soudre ce probl√®me est le regroupement multivues incomplet par repr√©sentation √† faible rang. L’algorithme est bas√© sur une repr√©sentation √©parse de faible rang et une repr√©sentation de sous-espace, dans laquelle les donn√©es manquantes sont compl√©t√©es en utilisant les donn√©es d’une modalit√© et les donn√©es connexes d’autres modalit√©s. 3) Am√©lioration de la robustesse du regroupement pour les donn√©es multivues incompl√®tes : nous proposons une fusion de la convolution graphique et des goulots d’√©tranglement de l’information (apprentissage de la repr√©sentation multivues incompl√®te via le goulot d’√©tranglement de l’information). Nous introduisons la th√©orie du goulot d’√©tranglement de l’information afin de filtrer les donn√©es parasites contenant des d√©tails non pertinents et de ne conserver que les √©l√©ments les plus pertinents. Nous int√©grons les informations sur la structure du graphe bas√©es sur les points d’ancrage dans les informations sur le graphe local. Le mod√®le int√®gre des repr√©sentations multiples √† l’aide de goulets d’√©tranglement de l’information, r√©duisant ainsi l’impact des informations redondantes dans les donn√©es.

Abstract :

Incomplete multi-view data clustering is a research direction that attracts attention in the fields of data mining and machine learning. In practical applications, we often face situations where only part of the modal data can be obtained or there are missing values. Data fusion is an important method for incomplete multi-view information mining. Solving for incomplete multi-view information mining in a targeted manner, achieving flexible collaboration between visible views and shared hidden views, and improving the robustness have become quite challenging . This thesis focuses on three aspects: hidden data mining, collaborative fusion, and enhancing the robustness of clustering. The main contributions are as follows: 1. Hidden data mining for incomplete multi-view data: existing algorithms cannot make full use of the observation of information within and between views, resulting in the loss of a large amount of valuable information, and so we propose a new incomplete multi-view clustering model IMC-NLT (Incomplete Multi-view Clustering Based on NMF and Low-Rank Tensor Fusion) based on non-negative matrix factorization and low-rank tensor fusion. 2. Collaborative fusion for incomplete multi-view data: our approach to address this issue is Incomplete Multi-view Co-Clustering by Sparse Low-Rank Representation. The algorithm is based on sparse low-rank representation and subspace representation, in which jointly-missing data is filled using data within a modality and related data from other modalities. 3. Enhancing the clustering robustness for incomplete multi-view data: we offer a fusion of graph convolution and information bottlenecks (Incomplete Multi-view Representation Learning via Information Bottleneck and Anchor Graph GCN ‚Äď IMRL-IG). First, we introduce the information bottleneck theory to filter out the noise data with irrelevant details and retain only the most relevant feature items. Next, we integrate the graph structure information based on anchor points into the local graph information of the state fused into the shared information representation and the information representation learning process of the local specific view, a process which can balance the robustness of the learned features and improve the robustness. Finally, the model integrates multiple representations with the help of information bottlenecks, reducing the impact of redundant information in the data.