AVIS DE SOUTENANCE de Monsieur Mohamad ALBILANI

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR РServices répartis, Architectures, Modélisation, Validation, Administration des Réseaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Mohamad ALBILANI

Autoris√© √† pr√©senter ses travaux en vue de l‚Äôobtention du Doctorat de l’Institut Polytechnique de Paris, pr√©par√© √† T√©l√©com SudParis en :

Informatique

¬ę Apprentissage par renforcement profond neuro-symbolique pour une conduite urbaine s√Ľre √† l’aide de capteurs √† faible co√Ľt. ¬Ľ

le LUNDI 22 AVRIL 2024 √† 14h30

à

Amphith√©√Ętre 7
19 Place Marguerite Perey, 91120 Palaiseau

Membres du jury :

Mme Amel BOUZEGHOUB, Professeure, T√©l√©com SudParis, FRANCE – Directrice de th√®se
M. Fawzi NASHASHIBI, Directeur de recherche, Inria, FRANCE – Rapporteur
M. Lounis ADOUANE, Professeur, Universit√© de Technologie de Compi√®gne, FRANCE – Rapporteur
Mme Maryline LAURENT, Professeure, T√©l√©com SudParis, FRANCE – Examinatrice
M. Philippe XU, Professeur, ENSTA Paris, FRANCE – Examinateur
M. Sascha HORNAUER, Ma√ģtre de conf√©rences, Mines Paris PSL, FRANCE – Examinateur

¬ę Apprentissage par renforcement profond neuro-symbolique pour une conduite urbaine s√Ľre √† l’aide de capteurs √† faible co√Ľt. ¬Ľ

présenté par Monsieur Mohamad ALBILANI

Résumé :

La recherche effectu√©e dans cette th√®se concerne le domaine de la conduite urbaine s√Ľre, en utilisant des m√©thodes de fusion de capteurs et d’apprentissage par renforcement pour la perception et le contr√īle des v√©hicules autonomes (VA). L’√©volution g√©n√©ralis√©e des technologies d’apprentissage automatique ont principalement propuls√© la prolif√©ration des v√©hicules autonomes ces derni√®res ann√©es. Cependant, des progr√®s substantiels sont n√©cessaires avant d’atteindre une adoption g√©n√©ralis√©e par le grand public. Pour accomplir son automatisation, les v√©hicules autonomes n√©cessitent l’int√©gration d’une s√©rie de capteurs co√Ľteux (e.g. cam√©ras, radars, LiDAR et capteurs √† ultrasons). En plus de leur fardeau financier, ces capteurs pr√©sentent une sensibilit√© aux variations telles que la m√©t√©o, une limitation non partag√©e par les conducteurs humains qui peuvent naviguer dans des conditions diverses en se fiant √† une vision frontale simple. Par ailleurs, l’av√®nement des algorithmes neuronaux de prise de d√©cision constitue l’intelligence fondamentale des v√©hicules autonomes. Les solutions d’apprentissage profond par renforcement, facilitant l’apprentissage de la politique du conducteur de bout en bout, ont trouv√© application dans des sc√©narios de conduite √©l√©mentaires, englobant des t√Ęches telles que le maintien dans la voie, le contr√īle de la direction et la gestion de l’acc√©l√©ration. Cependant, il s’av√®re que ces algorithmes sont co√Ľteux en temps d’ex√©cution et n√©cessitent de large ensembles de donn√©es pour un entra√ģnement efficace. De plus, la s√©curit√© doit √™tre prise en compte tout au long des phases de d√©veloppement et de d√©ploiement des v√©hicules autonomes. La premi√®re contribution de cette th√®se am√©liore la localisation des v√©hicules en fusionnant les mesures des capteurs GPS et IMU avec une adaptation d’un filtre de Kalman, ES-EKF, et une r√©duction du bruit des mesures IMU. L’algorithme est d√©ploy√© et test√© en utilisant des donn√©es de v√©rit√© terrain sur un microcontr√īleur. La deuxi√®me contribution propose l’algorithme DPPO-IL (Dynamic Proximal Policy Optimization with Imitation Learning), con√ßu pour faciliter le stationnement automatis√© en accordant une attention toute particuli√®re √† la s√©curit√©. Cet algorithme apprend √† ex√©cuter des manŇďuvres de stationnement optimales tout en naviguant entre des d’obstacles statiques et dynamiques gr√Ęce √† un entra√ģnement complet int√©grant des donn√©es simul√©es et r√©elles. La troisi√®me contribution est un framework de conduite urbaine de bout en bout appel√© Guided Hierarchical Reinforcement Learning (GHRL). Il int√®gre des donn√©es de vision et de localisation ainsi que des d√©monstrations d’experts exprim√©es avec des r√®gles ASP (Answer Set Programming) pour guider la politique d’exploration de l’apprentissage par renforcement hi√©rarchique et acc√©l√©rer la convergence de l’algorithme. Lorsqu’une situation critique se produit, le syst√®me s’appuie √©galement sur des r√®gles li√©es √† la s√©curit√© pour faire des choix judicieux dans des conditions impr√©visibles ou dangereuses. GHRL est √©valu√© sur le jeu de donn√©es NoCrash du simulateur Carla et les r√©sultats montrent qu’en incorporant des r√®gles logiques, GHRL obtient de meilleures performances que les algorithmes de l’√©tat de l’art.

Abstract :

The research conducted in this thesis is centered on the domain of safe urban driving, employing sensor fusion and reinforcement learning methodologies for the perception and control of autonomous vehicles (AV). The evolution and widespread integration of machine learning technologies have primarily propelled the proliferation of autonomous vehicles in recent years. However, substantial progress is requisite before achieving widespread adoption by the general populace. To accomplish its automation, autonomous vehicles necessitate the integration of an array of costly sensors, including cameras, radars, LiDARs, and ultrasonic sensors. In addition to their financial burden, these sensors exhibit susceptibility to environmental variables such as weather, a limitation not shared by human drivers who can navigate diverse conditions with a reliance on simple frontal vision. Moreover, the advent of decision-making neural network algorithms constitutes the core intelligence of autonomous vehicles. Deep Reinforcement Learning solutions, facilitating end-to-end driver policy learning, have found application in elementary driving scenarios, encompassing tasks like lane-keeping, steering control, and acceleration management. However, these algorithms demand substantial time and extensive datasets for effective training. In addition, safety must be considered throughout the development and deployment phases of autonomous vehicles. The first contribution of this thesis improves vehicle localization by fusing data from GPS and IMU sensors with an adaptation of a Kalman filter, ES-EKF, and a reduction of noise in IMU measurements. This method excels in urban environments marked by signal obstructions and elevated noise levels, effectively mitigating the adverse impact of noise in IMU sensor measurements, thereby maintaining localization accuracy and robustness. The algorithm is deployed and tested employing ground truth data on an embedded microcontroller. The second contribution introduces the DPPO-IL (Dynamic Proximal Policy Optimization with Imitation Learning) algorithm, designed to facilitate end-to-end automated parking while maintaining a steadfast focus on safety. This algorithm acquires proficiency in executing optimal parking maneuvers while navigating static and dynamic obstacles through exhaustive training incorporating simulated and real-world data.The third contribution is an end-to-end urban driving framework called GHRL. It incorporates vision and localization data and expert demonstrations expressed in the Answer Set Programming (ASP) rules to guide the hierarchical reinforcement learning (HRL) exploration policy and speed up the learning algorithm’s convergence. When a critical situation occurs, the system relies on safety rules, which empower it to make prudent choices amidst unpredictable or hazardous conditions. GHRL is evaluated on the Carla NoCrash benchmark, and the results show that by incorporating logical rules, GHRL achieved better performance over state-of-the-art algorithms.