AVIS DE SOUTENANCE de Monsieur Mohamad ALBILANI

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Mohamad ALBILANI

Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :

Informatique

« Apprentissage par renforcement profond neuro-symbolique pour une conduite urbaine sûre à l’aide de capteurs à faible coût. »

le LUNDI 22 AVRIL 2024 à 14h30

à

Amphithéâtre 7
19 Place Marguerite Perey, 91120 Palaiseau

Membres du jury :

Mme Amel BOUZEGHOUB, Professeure, Télécom SudParis, FRANCE – Directrice de thèse
M. Fawzi NASHASHIBI, Directeur de recherche, Inria, FRANCE – Rapporteur
M. Lounis ADOUANE, Professeur, Université de Technologie de Compiègne, FRANCE – Rapporteur
Mme Maryline LAURENT, Professeure, Télécom SudParis, FRANCE – Examinatrice
M. Philippe XU, Professeur, ENSTA Paris, FRANCE – Examinateur
M. Sascha HORNAUER, Maître de conférences, Mines Paris PSL, FRANCE – Examinateur

« Apprentissage par renforcement profond neuro-symbolique pour une conduite urbaine sûre à l’aide de capteurs à faible coût. »

présenté par Monsieur Mohamad ALBILANI

Résumé :

La recherche effectuée dans cette thèse concerne le domaine de la conduite urbaine sûre, en utilisant des méthodes de fusion de capteurs et d’apprentissage par renforcement pour la perception et le contrôle des véhicules autonomes (VA). L’évolution généralisée des technologies d’apprentissage automatique ont principalement propulsé la prolifération des véhicules autonomes ces dernières années. Cependant, des progrès substantiels sont nécessaires avant d’atteindre une adoption généralisée par le grand public. Pour accomplir son automatisation, les véhicules autonomes nécessitent l’intégration d’une série de capteurs coûteux (e.g. caméras, radars, LiDAR et capteurs à ultrasons). En plus de leur fardeau financier, ces capteurs présentent une sensibilité aux variations telles que la météo, une limitation non partagée par les conducteurs humains qui peuvent naviguer dans des conditions diverses en se fiant à une vision frontale simple. Par ailleurs, l’avènement des algorithmes neuronaux de prise de décision constitue l’intelligence fondamentale des véhicules autonomes. Les solutions d’apprentissage profond par renforcement, facilitant l’apprentissage de la politique du conducteur de bout en bout, ont trouvé application dans des scénarios de conduite élémentaires, englobant des tâches telles que le maintien dans la voie, le contrôle de la direction et la gestion de l’accélération. Cependant, il s’avère que ces algorithmes sont coûteux en temps d’exécution et nécessitent de large ensembles de données pour un entraînement efficace. De plus, la sécurité doit être prise en compte tout au long des phases de développement et de déploiement des véhicules autonomes. La première contribution de cette thèse améliore la localisation des véhicules en fusionnant les mesures des capteurs GPS et IMU avec une adaptation d’un filtre de Kalman, ES-EKF, et une réduction du bruit des mesures IMU. L’algorithme est déployé et testé en utilisant des données de vérité terrain sur un microcontrôleur. La deuxième contribution propose l’algorithme DPPO-IL (Dynamic Proximal Policy Optimization with Imitation Learning), conçu pour faciliter le stationnement automatisé en accordant une attention toute particulière à la sécurité. Cet algorithme apprend à exécuter des manœuvres de stationnement optimales tout en naviguant entre des d’obstacles statiques et dynamiques grâce à un entraînement complet intégrant des données simulées et réelles. La troisième contribution est un framework de conduite urbaine de bout en bout appelé Guided Hierarchical Reinforcement Learning (GHRL). Il intègre des données de vision et de localisation ainsi que des démonstrations d’experts exprimées avec des règles ASP (Answer Set Programming) pour guider la politique d’exploration de l’apprentissage par renforcement hiérarchique et accélérer la convergence de l’algorithme. Lorsqu’une situation critique se produit, le système s’appuie également sur des règles liées à la sécurité pour faire des choix judicieux dans des conditions imprévisibles ou dangereuses. GHRL est évalué sur le jeu de données NoCrash du simulateur Carla et les résultats montrent qu’en incorporant des règles logiques, GHRL obtient de meilleures performances que les algorithmes de l’état de l’art.

Abstract :

The research conducted in this thesis is centered on the domain of safe urban driving, employing sensor fusion and reinforcement learning methodologies for the perception and control of autonomous vehicles (AV). The evolution and widespread integration of machine learning technologies have primarily propelled the proliferation of autonomous vehicles in recent years. However, substantial progress is requisite before achieving widespread adoption by the general populace. To accomplish its automation, autonomous vehicles necessitate the integration of an array of costly sensors, including cameras, radars, LiDARs, and ultrasonic sensors. In addition to their financial burden, these sensors exhibit susceptibility to environmental variables such as weather, a limitation not shared by human drivers who can navigate diverse conditions with a reliance on simple frontal vision. Moreover, the advent of decision-making neural network algorithms constitutes the core intelligence of autonomous vehicles. Deep Reinforcement Learning solutions, facilitating end-to-end driver policy learning, have found application in elementary driving scenarios, encompassing tasks like lane-keeping, steering control, and acceleration management. However, these algorithms demand substantial time and extensive datasets for effective training. In addition, safety must be considered throughout the development and deployment phases of autonomous vehicles. The first contribution of this thesis improves vehicle localization by fusing data from GPS and IMU sensors with an adaptation of a Kalman filter, ES-EKF, and a reduction of noise in IMU measurements. This method excels in urban environments marked by signal obstructions and elevated noise levels, effectively mitigating the adverse impact of noise in IMU sensor measurements, thereby maintaining localization accuracy and robustness. The algorithm is deployed and tested employing ground truth data on an embedded microcontroller. The second contribution introduces the DPPO-IL (Dynamic Proximal Policy Optimization with Imitation Learning) algorithm, designed to facilitate end-to-end automated parking while maintaining a steadfast focus on safety. This algorithm acquires proficiency in executing optimal parking maneuvers while navigating static and dynamic obstacles through exhaustive training incorporating simulated and real-world data.The third contribution is an end-to-end urban driving framework called GHRL. It incorporates vision and localization data and expert demonstrations expressed in the Answer Set Programming (ASP) rules to guide the hierarchical reinforcement learning (HRL) exploration policy and speed up the learning algorithm’s convergence. When a critical situation occurs, the system relies on safety rules, which empower it to make prudent choices amidst unpredictable or hazardous conditions. GHRL is evaluated on the Carla NoCrash benchmark, and the results show that by incorporating logical rules, GHRL achieved better performance over state-of-the-art algorithms.