AVIS DE SOUTENANCE de Monsieur Killian MURPHY

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Killian MURPHY

Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :

Réseaux, Informations et Communications

« Maintenance prédictive d’équipements réseau par apprentissage machine »

le MARDI 9 JUILLET 2024 à 15h00

à

Amphi 2
19 pl. Marguerite Perey 92120, Palaiseau, France

Membres du jury :

Mme Catherine LEPERS, Professeure, Télécom SudParis, FRANCE – Directeur de these
Mme Christine TREMBLAY, Professeure, Ecole Technologie Supérieure, Montréal, CANADA – Examinateur
M. Thomas CLAUSEN, Professeur, Ecole Polytechnique, FRANCE – Examinateur
M. Christophe GRAVIER, Professeur, Telecom St-Etienne, FRANCE – Examinateur
M. Cédric WARE, Professeur, Telecom Paris, FRANCE – Examinateur
M. Antoine LAVIGNOTTE, Directeur d’études, Télécom SudParis, FRANCE – Co-encadrant de these
Mme Sandrine VATON, Professeure, IMT Atlantique, FRANCE – Rapporteur
M. Francesco MUSUMECI, Professeur associé, Politecnico di Milano, ITALIE – Rapporteur

« Maintenance prédictive d’équipements réseau par apprentissage machine »

présenté par Monsieur Killian MURPHY

Résumé :

Avec la montée en puissance des capacités de calcul nécessaires pour les méthodes plus développées d’Apprentissage Machine (ML), la Prédiction des Incidents Réseau (NFP:Network Fault Prediction) connait un regain d’intérêt scientifique. La capacité de prédire les incidents des équipements réseau est de plus en plus fréquemment identifiée comme un moyen efficace d’améliorer la fiabilité du réseau. Cette capacité prédictive peut être utilisée pour atténuer ou mettre en œuvre une maintenance prédictive en prévision des cas d’incidents réseau imminents. Cela pourrait contribuer à la mise en oeuvre de réseaux sans défaillance et sans pertes, et permettre aux applications critiques d’être exécutées sur des réseaux de plus grandes dimensions et hétérogènes. Dans ce manuscrit, nous nous proposons de contribuer au domaine du NFP en nous focalisant sur la prédiction des alertes réseau. Dans un premier temps, nous présentons une étude de l’état de l’art complet du NFP en utilisant des méthodes d’apprentissage machine (ML) entièrement dédiée aux réseaux de télécommunications. Ensuite, nous établissons de futures directions de recherche dans le domaine. Dans un deuxième temps, nous proposons et étudions un couple de métriques (Réduction des coûts de maintenance, et mesure des gains de Qualité de Service) de performances de ML adaptées au NFP dans le cadre de la maintenance des réseaux. Dans un troisième temps, nous décrivons l’architecture complète de traitement des données, incluant l’infrastructure réseau et logicielle, et la chaîne de prétraitement des données nécessaires au ML qui ont été mis en œuvre chez SPIE ICS, société d’intégration de réseaux et de systèmes. Nous décrivons également avec précision le modèle du problème d’alarme et d’incidents. Dans un quatrième temps, nous établissons une comparaison des différentes méthodes de ML appliquées à notre jeu de données. Nous considérons des méthodes conventionelles de ML, basés sur des arbres de décision, des perceptrons multicouches et des Séparateurs à Vastes Marges. Nous testons la généralisation des performances des modèles par rapport aux différents types d’équipements, ainsi que les généralisations en ML des modèles de ML et des paramètres proposés. Ensuite, nous étudions avec succès les architectures de ML à entrée séquentielle – Réseaux de neurones convolutifs et Long Short Term Memory – dans le cas de données SNMP séquentielles sur notre ensemble de données. Finalement, nous étudions l’impact sur la performance de prédiction des variables de temps X, Y et Z de la modélisation du problème, définies en tant que la fenêtre temporelle des données d’entrée Y, la fenêtre temporelle tampon X entre le moment de la prédiction et la fenêtre temporelle de l’état cible Z.

Abstract :

With the improvement of computation power necessary for advanced applications of Machine Learning (ML), Network Fault Prediction (NFP) experiences a renewed scientific interest. The ability to predict network equipment failure is increasingly identified as an effective means to improve network reliability. This predictive capability can be used, to mitigate or to enact predictive maintenance on incoming network failures. This could contribute to establishing zero-failure networks and allow safety-critical applications to run over higher dimension and heterogeneous networks. In this PhD thesis, we propose to contribute to the NFP field by focusing on network alarm prediction. First, we present a comprehensive survey on NFP using Machine Learning (ML) methods entirely dedicated to telecommunication networks, and determine new directions for research in the field. Second, we propose and study a set of Machine Learning performance metrics (maintenance cost reduction and Quality of Service improvement) adapted to NFP in the context of network maintenance. Third, we describe the complete data processing architecture, including the network and software infrastructure, and the necessary data preprocessing pipeline that was implemented at SPIE ICS, Networks and Systems Integrator. We also describe the alarm or failure prediction problem model precisely. Fourth, we establish a benchmark of the different ML solutions applied to our dataset. We consider Decision Tree-based methods, Multi-Layer Perceptron and Support Vector Machines. We test the generalization of performance prediction across equipment types as well as normal ML generalization of the proposed models and parameters. Then, we apply sequential – Convolutional Neural Networks (CNN) and Long Short Term Memory (LSTM) – ML architectures with success on our sequential SNMP dataset. Finally, we study the impact on prediction performance of the time variables Y, X and Z of the problem model defined as the input data sequence timeframe Y, the buffer X between the time of prediction and the targeted timeframe Z.