L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, ModĂ©lisation, Validation, Administration des RĂ©seaux
présentent
lâAVIS DE SOUTENANCE de Monsieur Mohamad ALBILANI
AutorisĂ© Ă prĂ©senter ses travaux en vue de lâobtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă TĂ©lĂ©com SudParis en :
Informatique
« Apprentissage par renforcement profond neuro-symbolique pour une conduite urbaine sĂ»re Ă l’aide de capteurs Ă faible coĂ»t. »
le LUNDI 22 AVRIL 2024 Ă 14h30
Ă
Amphithéùtre 7
19 Place Marguerite Perey, 91120 Palaiseau
Membres du jury :
Mme Amel BOUZEGHOUB, Professeure, TĂ©lĂ©com SudParis, FRANCE – Directrice de thĂšse
M. Fawzi NASHASHIBI, Directeur de recherche, Inria, FRANCE – Rapporteur
M. Lounis ADOUANE, Professeur, UniversitĂ© de Technologie de CompiĂšgne, FRANCE – Rapporteur
Mme Maryline LAURENT, Professeure, TĂ©lĂ©com SudParis, FRANCE – Examinatrice
M. Philippe XU, Professeur, ENSTA Paris, FRANCE – Examinateur
M. Sascha HORNAUER, MaĂźtre de confĂ©rences, Mines Paris PSL, FRANCE – Examinateur
« Apprentissage par renforcement profond neuro-symbolique pour une conduite urbaine sĂ»re Ă l’aide de capteurs Ă faible coĂ»t. »
présenté par Monsieur Mohamad ALBILANI
Résumé :
La recherche effectuĂ©e dans cette thĂšse concerne le domaine de la conduite urbaine sĂ»re, en utilisant des mĂ©thodes de fusion de capteurs et d’apprentissage par renforcement pour la perception et le contrĂŽle des vĂ©hicules autonomes (VA). L’Ă©volution gĂ©nĂ©ralisĂ©e des technologies d’apprentissage automatique ont principalement propulsĂ© la prolifĂ©ration des vĂ©hicules autonomes ces derniĂšres annĂ©es. Cependant, des progrĂšs substantiels sont nĂ©cessaires avant d’atteindre une adoption gĂ©nĂ©ralisĂ©e par le grand public. Pour accomplir son automatisation, les vĂ©hicules autonomes nĂ©cessitent l’intĂ©gration d’une sĂ©rie de capteurs coĂ»teux (e.g. camĂ©ras, radars, LiDAR et capteurs Ă ultrasons). En plus de leur fardeau financier, ces capteurs prĂ©sentent une sensibilitĂ© aux variations telles que la mĂ©tĂ©o, une limitation non partagĂ©e par les conducteurs humains qui peuvent naviguer dans des conditions diverses en se fiant Ă une vision frontale simple. Par ailleurs, l’avĂšnement des algorithmes neuronaux de prise de dĂ©cision constitue l’intelligence fondamentale des vĂ©hicules autonomes. Les solutions d’apprentissage profond par renforcement, facilitant l’apprentissage de la politique du conducteur de bout en bout, ont trouvĂ© application dans des scĂ©narios de conduite Ă©lĂ©mentaires, englobant des tĂąches telles que le maintien dans la voie, le contrĂŽle de la direction et la gestion de l’accĂ©lĂ©ration. Cependant, il s’avĂšre que ces algorithmes sont coĂ»teux en temps d’exĂ©cution et nĂ©cessitent de large ensembles de donnĂ©es pour un entraĂźnement efficace. De plus, la sĂ©curitĂ© doit ĂȘtre prise en compte tout au long des phases de dĂ©veloppement et de dĂ©ploiement des vĂ©hicules autonomes. La premiĂšre contribution de cette thĂšse amĂ©liore la localisation des vĂ©hicules en fusionnant les mesures des capteurs GPS et IMU avec une adaptation d’un filtre de Kalman, ES-EKF, et une rĂ©duction du bruit des mesures IMU. L’algorithme est dĂ©ployĂ© et testĂ© en utilisant des donnĂ©es de vĂ©ritĂ© terrain sur un microcontrĂŽleur. La deuxiĂšme contribution propose l’algorithme DPPO-IL (Dynamic Proximal Policy Optimization with Imitation Learning), conçu pour faciliter le stationnement automatisĂ© en accordant une attention toute particuliĂšre Ă la sĂ©curitĂ©. Cet algorithme apprend Ă exĂ©cuter des manĆuvres de stationnement optimales tout en naviguant entre des d’obstacles statiques et dynamiques grĂące Ă un entraĂźnement complet intĂ©grant des donnĂ©es simulĂ©es et rĂ©elles. La troisiĂšme contribution est un framework de conduite urbaine de bout en bout appelĂ© Guided Hierarchical Reinforcement Learning (GHRL). Il intĂšgre des donnĂ©es de vision et de localisation ainsi que des dĂ©monstrations d’experts exprimĂ©es avec des rĂšgles ASP (Answer Set Programming) pour guider la politique d’exploration de l’apprentissage par renforcement hiĂ©rarchique et accĂ©lĂ©rer la convergence de l’algorithme. Lorsqu’une situation critique se produit, le systĂšme s’appuie Ă©galement sur des rĂšgles liĂ©es Ă la sĂ©curitĂ© pour faire des choix judicieux dans des conditions imprĂ©visibles ou dangereuses. GHRL est Ă©valuĂ© sur le jeu de donnĂ©es NoCrash du simulateur Carla et les rĂ©sultats montrent qu’en incorporant des rĂšgles logiques, GHRL obtient de meilleures performances que les algorithmes de l’Ă©tat de l’art.
Abstract :
The research conducted in this thesis is centered on the domain of safe urban driving, employing sensor fusion and reinforcement learning methodologies for the perception and control of autonomous vehicles (AV). The evolution and widespread integration of machine learning technologies have primarily propelled the proliferation of autonomous vehicles in recent years. However, substantial progress is requisite before achieving widespread adoption by the general populace. To accomplish its automation, autonomous vehicles necessitate the integration of an array of costly sensors, including cameras, radars, LiDARs, and ultrasonic sensors. In addition to their financial burden, these sensors exhibit susceptibility to environmental variables such as weather, a limitation not shared by human drivers who can navigate diverse conditions with a reliance on simple frontal vision. Moreover, the advent of decision-making neural network algorithms constitutes the core intelligence of autonomous vehicles. Deep Reinforcement Learning solutions, facilitating end-to-end driver policy learning, have found application in elementary driving scenarios, encompassing tasks like lane-keeping, steering control, and acceleration management. However, these algorithms demand substantial time and extensive datasets for effective training. In addition, safety must be considered throughout the development and deployment phases of autonomous vehicles. The first contribution of this thesis improves vehicle localization by fusing data from GPS and IMU sensors with an adaptation of a Kalman filter, ES-EKF, and a reduction of noise in IMU measurements. This method excels in urban environments marked by signal obstructions and elevated noise levels, effectively mitigating the adverse impact of noise in IMU sensor measurements, thereby maintaining localization accuracy and robustness. The algorithm is deployed and tested employing ground truth data on an embedded microcontroller. The second contribution introduces the DPPO-IL (Dynamic Proximal Policy Optimization with Imitation Learning) algorithm, designed to facilitate end-to-end automated parking while maintaining a steadfast focus on safety. This algorithm acquires proficiency in executing optimal parking maneuvers while navigating static and dynamic obstacles through exhaustive training incorporating simulated and real-world data.The third contribution is an end-to-end urban driving framework called GHRL. It incorporates vision and localization data and expert demonstrations expressed in the Answer Set Programming (ASP) rules to guide the hierarchical reinforcement learning (HRL) exploration policy and speed up the learning algorithm’s convergence. When a critical situation occurs, the system relies on safety rules, which empower it to make prudent choices amidst unpredictable or hazardous conditions. GHRL is evaluated on the Carla NoCrash benchmark, and the results show that by incorporating logical rules, GHRL achieved better performance over state-of-the-art algorithms.