Détection des anomalies sur les données en vol en temps réel avec des agents communicants hétérogènes

L’Ecole doctorale : Sciences et Technologies de l’Information et de la Communication et le Laboratoire de recherche SAMOVAR présentent l’AVIS DE SOUTENANCE de Monsieur Nicolas AUSSEL

Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Université Paris-Saclay, préparé à Télécom SudParis en :
Mathématiques et Informatique
« Détection des anomalies sur les données en vol en temps réel avec des agents communicants hétérogènes »

le VENDREDI 21 JUIN 2019 à 10h00

Salle A003

Télécom SudParis – 9 Rue Charles Fourier 91011 Evry

Membres du jury :

Mme Sophie CHABRIDON, Directrice d’études, Télécom SudParis, FRANCE	Directrice de thèse
M. Yohan PETETIN, Maître de conférences, Télécom SudParis, FRANCE	Encadrant
M. Pierre SENS, Professeur, Université Paris 6, FRANCE	Rapporteur
M. Mustapha LEBBAH, Associate Professor, Université Paris 13, FRANCE	Rapporteur
M. Eric GRESSIER-SOUDAN, Professeur, CNAM, FRANCE	Examinateur
Mme Mathilde MOUGEOT, Professeur, ENSIIE, FRANCE	Examinatrice

Résumé :

Avec l’augmentation du nombre de capteurs et d’actuateurs dans les avions et le développement de liaisons de données fiables entre les avions et le sol, il est devenu possible d’améliorer la sécurité et la fiabilité des systèmes à bord en appliquant des techniques d’analyse en temps réel. Cependant, étant donné la disponibilité limité des ressources de calcul embarquées et le coût élevé des liaisons de données, les solutions architecturelles actuelles ne peuvent pas exploiter pleinement toutes les ressources disponibles, limitant leur précision. Notre but est de proposer un algorithme distribué de prédiction de panne qui pourrait être exécuté à la fois à bord de l’avion et dans une station au sol tout en respectant un budget de communication. Dans cette approche, la station au sol disposerait de ressources de calcul rapides et de données historiques et l’avion disposerait de ressources de calcul limitées et des données de vol actuelles. Dans cette thèse, nous étudierons les spécificités des données aéronautiques et les méthodes déjà existantes pour produire des prédictions de pannes à partir de ces dernières et nous proposerons une solution au problème posé. Notre contribution sera détaillé en trois parties. Premièrement, nous étudierons le problème de prédiction d’événements rares créé par la haute fiabilité des systèmes aéronautiques. Beaucoup de méthodes d’apprentissage en classification reposent sur des jeux de données équilibrés. Plusieurs approches existent pour corriger le déséquilibre d’un jeu de donnée et nous étudierons leur efficacité sur des jeux de données extrêmement déséquilibrés. Deuxièmement, nous étudierons le problème d’analyse textuelle de journaux car de nombreux systèmes aéronautiques ne produisent pas d’étiquettes ou de valeurs numériques faciles à interpréter mais des messages de journaux textuels. Nous étudierons les méthodes existantes basées sur une approche statistique et sur l’apprentissage profond pour convertir des messages de journaux textuels en une forme utilisable en entrée d’algorithmes d’apprentissage pour classification. Nous proposerons notre propre méthode basée sur le traitement du langage naturel et montrerons comment ses performances dépassent celles des autres méthodes sur un jeu de donnée public standard. Enfin, nous offrirons une solution au problème posé en proposant un nouvel algorithme d’apprentissage distribué s’appuyant sur deux paradigmes d’apprentissage existant, l’apprentissage actif et l’apprentissage fédéré. Nous détaillerons notre algorithme, son implémentation et fournirons une comparaison de ses performances avec les méthodes existantes.

Abstract :

With the rise of the number of sensors and actuators in an aircraft and the development of reliable data links from the aircraft to the ground, it becomes possible to improve aircraft security and maintainability by applying real-time analysis techniques. However, given the limited availability of on-board computing and the high cost of the data links, current architectural solutions cannot fully leverage all the available resources limiting their accuracy. Our goal is to provide a distributed algorithm for failure prediction that could be executed both on-board of the aircraft and on a ground station and that would produce on-board failure predictions in near real-time under a communication budget. In this approach, the ground station would hold fast computation resources and historical data and the aircraft would hold limited computational resources and current flight’s data. In this thesis, we will study the specificities of aeronautical data and what methods already exist to produce failure prediction from them and propose a solution to the problem stated. Our contribution will be detailed in three main parts. First, we will study the problem of rare event prediction created by the high reliability of aeronautical systems. Many learning methods for classifiers rely on balanced datasets. Several approaches exist to correct a dataset imbalance and we will study their efficiency on extremely imbalanced datasets. Second, we study the problem of log parsing as many aeronautical systems do not produce easy to classify labels or numerical values but log messages in full text. We will study existing methods based on a statistical approach and on Deep Learning to convert full text log messages into a form usable as an input by learning algorithms for classifiers. We will then propose our own method based on Natural Language Processing and show how it outperforms the other approaches on a public benchmark. Last, we offer a solution to the stated problem by proposing a new distributed learning algorithm that relies on two existing learning paradigms Active Learning and Federated Learning. We detail our algorithm, its implementation and provide a comparison of its performance with existing methods