L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux

présentent

l’AVIS DE SOUTENANCE de Madame Jialin HAO

Autorisée à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :

Signal, Images, Automatique et robotique

« MACHINE LEARNING FOR ROAD ACTIVE SAFETY IN VEHICULAR NETWORKS »

le LUNDI 26 FÉVRIER 2024 à 9h30

Salle 1C27

19 Place Marguerite Perey 91120 Palaiseau

également en visioconférence

https://telecom-paris.zoom.us/j/95012258278?pwd=MlBaRVFqbDVGUEJOYlM1b3daZFVBdz09

ID de réunion: 950 1225 8278
Code secret: 395800

Membres du jury :

M. Djamal zEGHLACHE, Professeur, Télécom SudParis, FRANCE – Directeur de these
M. Khaled BOUSSETTA, Professeur, Paris 13, FRANCE – Rapporteur

M. Salah-Eddine EL AYOUBI, Professeur, CentraleSupélec, FRANCE – Rapporteur

M. Pascal LORENZ, Professeur, Université de Haute Alsace, FRANCE – Examinateur

M. Hadji MAKHLOUF, Chercheur Scientific, Institut de Recherch Technologique SystemX, FRANCE – Examinateur

Mme. Thi-Mai-Trang NGUYEN, Professeur, Université Sorbonne Paris Nord, FRANCE – Examinatrice

Mme. Rola NAJA, HDR et Associate Professor, ECE Paris Lyon – Ecole d’ingénieurs, FRANCE – Co-encadrant

Invité :

M. Samir TOHME, Professeur, Université de Versailles Saint-Quentin-en-Yvelines, FRANCE

« APPRENTISSAGE POUR LA SURETE DANS LES RESEAUX VEHICULAIRES »

présenté par Madame Jialin HAO

Résumé :

Cette thèse porte sur le développement d’une manœuvre d’aide au changement de voie (lane Change Assistance, LCA) sûre et efficace dans le contexte des réseaux de véhicules assistés par drones (Drone Assisted Vehicular Network, DAVN). En effet, les changements de voie contribuent de manière significative aux accidents de la route, nécessitant des solutions efficaces au sein des réseaux routiers. Les LCA stratégies actuelles établies sur l’apprentissage par renforcement profond (Deep Reinforcement Learning, DRL) sont limitées par les informations locales sur les véhicules, négligeant une vue globale, comme des conditions de circulation. Pour résoudre ce problème, les véhicules aériens sans pilote (Unmanned Aerial Vehicles, UAVs), ou drones, présentent une extension prometteuse des services de réseau automobile grâce à leur mobilité, capacités informatiques et liaisons de communication en visibilité directe (Line-if-Sight, LoS) avec les véhicules routiers. Dans un premier temps, nous faisons une étude bibliographique sur LCA au sein du DAVN, mettant en évidence le potentiel des drones pour améliorer la sécurité routière. Les approches LCA existantes s’appuient principalement sur des informations locales sur les véhicules et ne prennent pas en compte l’état global du trafic. Afin de réduire cette limitation, nous proposons le GL-DEAR : joint global and local drone-assisted lane change platform based on Deep-Q Network (DQN) with a dynamic reward function, for LCA with drones’ assistance. La plateforme proposée se compose de trois modules : route à risques aléatoires et véhicules d’urgence ; acquisition et traitement des données ; prise de décision de changement de voie en temps réel. La manœuvre de changement de voie est basée sur un Deep Q-Network avec des fonctions de récompense dynamiques. Plus précisément, nous adoptons les modèles de changement de voie authentiques basés sur l’ensemble de données NGSIM pour les véhicules routiers ordinaires afin de recréer les comportements de changement de voie du monde réel dans les simulations. Les résultats numériques démontrent la capacité de la plateforme à réaliser des trajets sans collision sur des autoroutes à risque avec des véhicules d’urgence. Dans un deuxième temps, nous identifions un manque de calibrage de la fréquence de mise à jour globale des algorithmes d’apprentissage fédéré (Federated Learning, FL) et l’absence d’évaluation approfondie du délai de traitement au niveau du drone. Nous proposons donc un cadre d’apprentissage par renforcement fédéré (FRL) assisté par drone, DAFL. Ce cadre permet un apprentissage coopératif entre les véhicules de l’ego en appliquant FL. Il comprend un algorithme d’agrégation de modèles global basé sur la réputation du client et une analyse complète du délai de bout en bout (End-to-End, E2E) au niveau du drone. Plus précisément, la fréquence globale de mise à jour est ajustée dynamiquement en fonction des mesures de sécurité routière et de la consommation énergétique des drones, ce qui donne des résultats efficaces dans les simulations. Dans la troisième étape, nous concevons l’algorithme DOP-T pour optimiser les trajectoires des drones dans les réseaux de véhicules dynamiques. Cet algorithme vise à équilibrer la consommation énergétique des drones et la sécurité routière. Nous fournissons un état de l’art complet des techniques existantes de planification de trajectoire de drones. Ensuite, sur la base de la modélisation du délai E2E du véhicule et de la modélisation de la consommation d’énergie du drone. Dans la seconde étape, nous formons un modèle d’apprentissage par renforcement hors ligne (Offline-Reinforcement Learning, ORL) pour éviter une formation en ligne consommatrice d’énergie. Les résultats de la simulation démontrent une réduction significative de la consommation d’énergie des drones et du délai E2E du véhicule à l’aide du modèle entraîné.
Abstract :

This thesis focuses on the development of a safe and efficient LCA maneuver in the context of drone-assisted vehicle networks (DAVN). In fact, lane change maneuvers contribute significantly to road accidents, requiring effective solutions within road networks. Current lane change assistance (LCA) strategies relying solely on deep reinforcement learning (DRL) are limited by local vehicle information, neglecting a global view of traffic conditions. To address this problem, unmanned aerial vehicles (UAVs), or drones, present a promising extension of automotive network services due to their mobility, computing capabilities, and line-of-sight (LoS) communications links with road vehicles. In the first step, we conduct a literature review on LCA within DAVN, highlighting the potential of drones to enhance road safety. Existing LCA approaches predominantly rely on local vehicle information and fail to consider overall traffic states. To address this limitation, we propose the GL-DEAR: joint global and local drone-assisted lane change platform based on Deep-Q Network (DQN) with a dynamic reward function, for LCA with drones’ assistance. The proposed platform consists of three modules: road with random risks and emergency vehicles; data file acquisition and processing; and real-time lane change decision-making. The lane change maneuver is based on a Deep Q-Network with dynamic reward functions. Specifically, we adopt the authentic NGSIM dataset-based lane change models for ordinary road vehicles to recreate real world lane change behaviors in the simulations. Numerical results demonstrate the platform’s ability to achieve collision-free trips on risky highways with emergency vehicles. In the second step, we identify a lack of calibration for the global update frequency in FL algorithms and the absence of thorough drone-level processing delay assessment. To this end, we propose the drone assisted Federated Reinforcement Learning (FRL)-based LCA framework, DAFL. This framework enables cooperative learning between ego vehicles by applying Federated Learning (FL). It includes a client reputation-based global model aggregation algorithm and a comprehensive analysis of End-to-End (E2E) delay at the drone. Specifically, the global update frequency is dynamically adjusted according to road safety measurements and drone energy consumption, yielding efficient results in simulations. In the third step, we devise the DOP-T algorithm for optimizing drone trajectories in dynamic vehicular networks. This algorithm aims to balance drone energy consumption and road safety. We provide a comprehensive state-of-the-art review of the existing drone trajectory planning techniques. Then, based on the vehicle E2E delay modeling and the drone energy consumption modeling in the second step, we train a Offline Reinforcement Learning (ORL) model to avoid power-consuming online training. Simulation results demonstrate a significant reduction in drone energy consumption and vehicle E2E delay using the trained model.