AVIS DE SOUTENANCE de Monsieur Killian MURPHY

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, ModĂ©lisation, Validation, Administration des RĂ©seaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Killian MURPHY

AutorisĂ© Ă  prĂ©senter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă  TĂ©lĂ©com SudParis en :

RĂ©seaux, Informations et Communications

« Maintenance prĂ©dictive d’Ă©quipements rĂ©seau par apprentissage machine »

le MARDI 9 JUILLET 2024 Ă  15h00

Ă 

Amphi 2
19 pl. Marguerite Perey 92120, Palaiseau, France

Membres du jury :

Mme Catherine LEPERS, Professeure, TĂ©lĂ©com SudParis, FRANCE – Directeur de these
Mme Christine TREMBLAY, Professeure, Ecole Technologie SupĂ©rieure, MontrĂ©al, CANADA – Examinateur
M. Thomas CLAUSEN, Professeur, Ecole Polytechnique, FRANCE – Examinateur
M. Christophe GRAVIER, Professeur, Telecom St-Etienne, FRANCE – Examinateur
M. CĂ©dric WARE, Professeur, Telecom Paris, FRANCE – Examinateur
M. Antoine LAVIGNOTTE, Directeur d’Ă©tudes, TĂ©lĂ©com SudParis, FRANCE – Co-encadrant de these
Mme Sandrine VATON, Professeure, IMT Atlantique, FRANCE – Rapporteur
M. Francesco MUSUMECI, Professeur associĂ©, Politecnico di Milano, ITALIE – Rapporteur

« Maintenance prĂ©dictive d’Ă©quipements rĂ©seau par apprentissage machine »

présenté par Monsieur Killian MURPHY

Résumé :

Avec la montĂ©e en puissance des capacitĂ©s de calcul nĂ©cessaires pour les mĂ©thodes plus dĂ©veloppĂ©es d’Apprentissage Machine (ML), la PrĂ©diction des Incidents RĂ©seau (NFP:Network Fault Prediction) connait un regain d’intĂ©rĂȘt scientifique. La capacitĂ© de prĂ©dire les incidents des Ă©quipements rĂ©seau est de plus en plus frĂ©quemment identifiĂ©e comme un moyen efficace d’amĂ©liorer la fiabilitĂ© du rĂ©seau. Cette capacitĂ© prĂ©dictive peut ĂȘtre utilisĂ©e pour attĂ©nuer ou mettre en Ɠuvre une maintenance prĂ©dictive en prĂ©vision des cas d’incidents rĂ©seau imminents. Cela pourrait contribuer Ă  la mise en oeuvre de rĂ©seaux sans dĂ©faillance et sans pertes, et permettre aux applications critiques d’ĂȘtre exĂ©cutĂ©es sur des rĂ©seaux de plus grandes dimensions et hĂ©tĂ©rogĂšnes. Dans ce manuscrit, nous nous proposons de contribuer au domaine du NFP en nous focalisant sur la prĂ©diction des alertes rĂ©seau. Dans un premier temps, nous prĂ©sentons une Ă©tude de l’Ă©tat de l’art complet du NFP en utilisant des mĂ©thodes d’apprentissage machine (ML) entiĂšrement dĂ©diĂ©e aux rĂ©seaux de tĂ©lĂ©communications. Ensuite, nous Ă©tablissons de futures directions de recherche dans le domaine. Dans un deuxiĂšme temps, nous proposons et Ă©tudions un couple de mĂ©triques (RĂ©duction des coĂ»ts de maintenance, et mesure des gains de QualitĂ© de Service) de performances de ML adaptĂ©es au NFP dans le cadre de la maintenance des rĂ©seaux. Dans un troisiĂšme temps, nous dĂ©crivons l’architecture complĂšte de traitement des donnĂ©es, incluant l’infrastructure rĂ©seau et logicielle, et la chaĂźne de prĂ©traitement des donnĂ©es nĂ©cessaires au ML qui ont Ă©tĂ© mis en Ɠuvre chez SPIE ICS, sociĂ©tĂ© d’intĂ©gration de rĂ©seaux et de systĂšmes. Nous dĂ©crivons Ă©galement avec prĂ©cision le modĂšle du problĂšme d’alarme et d’incidents. Dans un quatriĂšme temps, nous Ă©tablissons une comparaison des diffĂ©rentes mĂ©thodes de ML appliquĂ©es Ă  notre jeu de donnĂ©es. Nous considĂ©rons des mĂ©thodes conventionelles de ML, basĂ©s sur des arbres de dĂ©cision, des perceptrons multicouches et des SĂ©parateurs Ă  Vastes Marges. Nous testons la gĂ©nĂ©ralisation des performances des modĂšles par rapport aux diffĂ©rents types d’Ă©quipements, ainsi que les gĂ©nĂ©ralisations en ML des modĂšles de ML et des paramĂštres proposĂ©s. Ensuite, nous Ă©tudions avec succĂšs les architectures de ML Ă  entrĂ©e sĂ©quentielle – RĂ©seaux de neurones convolutifs et Long Short Term Memory – dans le cas de donnĂ©es SNMP sĂ©quentielles sur notre ensemble de donnĂ©es. Finalement, nous Ă©tudions l’impact sur la performance de prĂ©diction des variables de temps X, Y et Z de la modĂ©lisation du problĂšme, dĂ©finies en tant que la fenĂȘtre temporelle des donnĂ©es d’entrĂ©e Y, la fenĂȘtre temporelle tampon X entre le moment de la prĂ©diction et la fenĂȘtre temporelle de l’Ă©tat cible Z.

Abstract :

With the improvement of computation power necessary for advanced applications of Machine Learning (ML), Network Fault Prediction (NFP) experiences a renewed scientific interest. The ability to predict network equipment failure is increasingly identified as an effective means to improve network reliability. This predictive capability can be used, to mitigate or to enact predictive maintenance on incoming network failures. This could contribute to establishing zero-failure networks and allow safety-critical applications to run over higher dimension and heterogeneous networks. In this PhD thesis, we propose to contribute to the NFP field by focusing on network alarm prediction. First, we present a comprehensive survey on NFP using Machine Learning (ML) methods entirely dedicated to telecommunication networks, and determine new directions for research in the field. Second, we propose and study a set of Machine Learning performance metrics (maintenance cost reduction and Quality of Service improvement) adapted to NFP in the context of network maintenance. Third, we describe the complete data processing architecture, including the network and software infrastructure, and the necessary data preprocessing pipeline that was implemented at SPIE ICS, Networks and Systems Integrator. We also describe the alarm or failure prediction problem model precisely. Fourth, we establish a benchmark of the different ML solutions applied to our dataset. We consider Decision Tree-based methods, Multi-Layer Perceptron and Support Vector Machines. We test the generalization of performance prediction across equipment types as well as normal ML generalization of the proposed models and parameters. Then, we apply sequential – Convolutional Neural Networks (CNN) and Long Short Term Memory (LSTM) – ML architectures with success on our sequential SNMP dataset. Finally, we study the impact on prediction performance of the time variables Y, X and Z of the problem model defined as the input data sequence timeframe Y, the buffer X between the time of prediction and the targeted timeframe Z.