AVIS DE SOUTENANCE de Monsieur Mohamad ALBILANI

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, ModĂ©lisation, Validation, Administration des RĂ©seaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Mohamad ALBILANI

AutorisĂ© Ă  prĂ©senter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă  TĂ©lĂ©com SudParis en :

Informatique

« Apprentissage par renforcement profond neuro-symbolique pour une conduite urbaine sĂ»re Ă  l’aide de capteurs Ă  faible coĂ»t. »

le LUNDI 22 AVRIL 2024 Ă  14h30

Ă 

Amphithéâtre 7
19 Place Marguerite Perey, 91120 Palaiseau

Membres du jury :

Mme Amel BOUZEGHOUB, Professeure, TĂ©lĂ©com SudParis, FRANCE – Directrice de thèse
M. Fawzi NASHASHIBI, Directeur de recherche, Inria, FRANCE – Rapporteur
M. Lounis ADOUANE, Professeur, UniversitĂ© de Technologie de Compiègne, FRANCE – Rapporteur
Mme Maryline LAURENT, Professeure, TĂ©lĂ©com SudParis, FRANCE – Examinatrice
M. Philippe XU, Professeur, ENSTA Paris, FRANCE – Examinateur
M. Sascha HORNAUER, MaĂ®tre de confĂ©rences, Mines Paris PSL, FRANCE – Examinateur

« Apprentissage par renforcement profond neuro-symbolique pour une conduite urbaine sĂ»re Ă  l’aide de capteurs Ă  faible coĂ»t. »

présenté par Monsieur Mohamad ALBILANI

Résumé :

La recherche effectuĂ©e dans cette thèse concerne le domaine de la conduite urbaine sĂ»re, en utilisant des mĂ©thodes de fusion de capteurs et d’apprentissage par renforcement pour la perception et le contrĂ´le des vĂ©hicules autonomes (VA). L’Ă©volution gĂ©nĂ©ralisĂ©e des technologies d’apprentissage automatique ont principalement propulsĂ© la prolifĂ©ration des vĂ©hicules autonomes ces dernières annĂ©es. Cependant, des progrès substantiels sont nĂ©cessaires avant d’atteindre une adoption gĂ©nĂ©ralisĂ©e par le grand public. Pour accomplir son automatisation, les vĂ©hicules autonomes nĂ©cessitent l’intĂ©gration d’une sĂ©rie de capteurs coĂ»teux (e.g. camĂ©ras, radars, LiDAR et capteurs Ă  ultrasons). En plus de leur fardeau financier, ces capteurs prĂ©sentent une sensibilitĂ© aux variations telles que la mĂ©tĂ©o, une limitation non partagĂ©e par les conducteurs humains qui peuvent naviguer dans des conditions diverses en se fiant Ă  une vision frontale simple. Par ailleurs, l’avènement des algorithmes neuronaux de prise de dĂ©cision constitue l’intelligence fondamentale des vĂ©hicules autonomes. Les solutions d’apprentissage profond par renforcement, facilitant l’apprentissage de la politique du conducteur de bout en bout, ont trouvĂ© application dans des scĂ©narios de conduite Ă©lĂ©mentaires, englobant des tâches telles que le maintien dans la voie, le contrĂ´le de la direction et la gestion de l’accĂ©lĂ©ration. Cependant, il s’avère que ces algorithmes sont coĂ»teux en temps d’exĂ©cution et nĂ©cessitent de large ensembles de donnĂ©es pour un entraĂ®nement efficace. De plus, la sĂ©curitĂ© doit ĂŞtre prise en compte tout au long des phases de dĂ©veloppement et de dĂ©ploiement des vĂ©hicules autonomes. La première contribution de cette thèse amĂ©liore la localisation des vĂ©hicules en fusionnant les mesures des capteurs GPS et IMU avec une adaptation d’un filtre de Kalman, ES-EKF, et une rĂ©duction du bruit des mesures IMU. L’algorithme est dĂ©ployĂ© et testĂ© en utilisant des donnĂ©es de vĂ©ritĂ© terrain sur un microcontrĂ´leur. La deuxième contribution propose l’algorithme DPPO-IL (Dynamic Proximal Policy Optimization with Imitation Learning), conçu pour faciliter le stationnement automatisĂ© en accordant une attention toute particulière Ă  la sĂ©curitĂ©. Cet algorithme apprend Ă  exĂ©cuter des manĹ“uvres de stationnement optimales tout en naviguant entre des d’obstacles statiques et dynamiques grâce Ă  un entraĂ®nement complet intĂ©grant des donnĂ©es simulĂ©es et rĂ©elles. La troisième contribution est un framework de conduite urbaine de bout en bout appelĂ© Guided Hierarchical Reinforcement Learning (GHRL). Il intègre des donnĂ©es de vision et de localisation ainsi que des dĂ©monstrations d’experts exprimĂ©es avec des règles ASP (Answer Set Programming) pour guider la politique d’exploration de l’apprentissage par renforcement hiĂ©rarchique et accĂ©lĂ©rer la convergence de l’algorithme. Lorsqu’une situation critique se produit, le système s’appuie Ă©galement sur des règles liĂ©es Ă  la sĂ©curitĂ© pour faire des choix judicieux dans des conditions imprĂ©visibles ou dangereuses. GHRL est Ă©valuĂ© sur le jeu de donnĂ©es NoCrash du simulateur Carla et les rĂ©sultats montrent qu’en incorporant des règles logiques, GHRL obtient de meilleures performances que les algorithmes de l’Ă©tat de l’art.

Abstract :

The research conducted in this thesis is centered on the domain of safe urban driving, employing sensor fusion and reinforcement learning methodologies for the perception and control of autonomous vehicles (AV). The evolution and widespread integration of machine learning technologies have primarily propelled the proliferation of autonomous vehicles in recent years. However, substantial progress is requisite before achieving widespread adoption by the general populace. To accomplish its automation, autonomous vehicles necessitate the integration of an array of costly sensors, including cameras, radars, LiDARs, and ultrasonic sensors. In addition to their financial burden, these sensors exhibit susceptibility to environmental variables such as weather, a limitation not shared by human drivers who can navigate diverse conditions with a reliance on simple frontal vision. Moreover, the advent of decision-making neural network algorithms constitutes the core intelligence of autonomous vehicles. Deep Reinforcement Learning solutions, facilitating end-to-end driver policy learning, have found application in elementary driving scenarios, encompassing tasks like lane-keeping, steering control, and acceleration management. However, these algorithms demand substantial time and extensive datasets for effective training. In addition, safety must be considered throughout the development and deployment phases of autonomous vehicles. The first contribution of this thesis improves vehicle localization by fusing data from GPS and IMU sensors with an adaptation of a Kalman filter, ES-EKF, and a reduction of noise in IMU measurements. This method excels in urban environments marked by signal obstructions and elevated noise levels, effectively mitigating the adverse impact of noise in IMU sensor measurements, thereby maintaining localization accuracy and robustness. The algorithm is deployed and tested employing ground truth data on an embedded microcontroller. The second contribution introduces the DPPO-IL (Dynamic Proximal Policy Optimization with Imitation Learning) algorithm, designed to facilitate end-to-end automated parking while maintaining a steadfast focus on safety. This algorithm acquires proficiency in executing optimal parking maneuvers while navigating static and dynamic obstacles through exhaustive training incorporating simulated and real-world data.The third contribution is an end-to-end urban driving framework called GHRL. It incorporates vision and localization data and expert demonstrations expressed in the Answer Set Programming (ASP) rules to guide the hierarchical reinforcement learning (HRL) exploration policy and speed up the learning algorithm’s convergence. When a critical situation occurs, the system relies on safety rules, which empower it to make prudent choices amidst unpredictable or hazardous conditions. GHRL is evaluated on the Carla NoCrash benchmark, and the results show that by incorporating logical rules, GHRL achieved better performance over state-of-the-art algorithms.