L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux
présentent
l’AVIS DE SOUTENANCE de Monsieur XINCHEN HAN
Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à l’Institut Polytechnique de Paris Télécom SudParis en :
Informatique
« Étude systématique de l’apprentissage par renforcement hors ligne : évolution méthodologique et conception algorithmique »
le VENDREDI 26 JUIN 2026 à 14h00
à
Amphithéâtre 3
Télécom SudParis 19 place Marguerite Perey 91120 Palaiseau
Membres du jury :
M. Hossam AFIFI, Full professor, Institut Polytechnique de Paris Télécom SudParis, FRANCE – Directeur de these
M. Michel MAROT, Full professor, Institut Polytechnique de Paris Télécom SudParis, FRANCE – CoDirecteur de these
Mme Salima BENBERNOU, Full professor, Université Paris Descartes, FRANCE – Examinatrice
M. Nadjib AITSAADI, Full professor, Paris-Saclay university, FRANCE – Examinateur
M. Pascal LORENZ, Full professor, University of Haute-Alsace, FRANCE – Examinateur
M. Lyes KHOUKHI, Full professor, Sorbonne University, FRANCE – Rapporteur
M. Fabrice MOURLIN, Associate Professor, Paris-Est université, FRANCE – Rapporteur
« Étude systématique de l’apprentissage par renforcement hors ligne : évolution méthodologique et conception algorithmique »
présenté par Monsieur XINCHEN HAN
Résumé :
L’apprentissage par renforcement hors ligne (offline RL) vise à apprendre des politiques de décision à partir de données fixes, sans interaction avec l’environnement. Il est pertinent lorsque la collecte en ligne est coûteuse, risquée ou impossible. Toutefois, l’offline RL se heurte à des défis fondamentaux, notamment le décalage de distribution, les actions hors distribution (out-of-distribution, OOD) et l’erreur d’extrapolation, qui compliquent l’évaluation et l’amélioration fiables des politiques. Cette thèse étudie l’offline RL sans modèle avec deux objectifs : comprendre son évolution méthodologique et développer des algorithmes plus efficaces. Premièrement, cette thèse réexamine l’offline RL à la lumière de la deadly triad et en analyse les défis. Sur cette base, elle développe une taxonomie algorithmique de l’offline RL et retrace l’évolution de ses principes de conception. Plutôt que de considérer les méthodes existantes comme des catégories isolées, la thèse montre comment les familles algorithmiques émergent et évoluent face à des défis tels que la surestimation des valeurs et le décalage de distribution. Deuxièmement, afin de répondre à la tension entre l’apprentissage in-sample et l’apprentissage multi-pas, Projective Implicit Q-Learning (PIQL) est proposé. PIQL remplace l’expectile fixe d’Implicit Q-Learning par un paramètre adaptatif fondé sur la projection, autorisant une interprétation multi-pas tout en préservant la propriété d’apprentissage in-sample. En outre, PIQL adopte un objectif d’amélioration de politique sous contrainte de support, mieux aligné sur l’étape d’évaluation. L’analyse théorique établit une amélioration monotone de la politique ainsi qu’un critère plus strict pour les actions avantageuses, tandis que les expériences sur des benchmarks montrent de bonnes performances. Troisièmement, la thèse introduit le cadre Continuous Constraint Interpolation (CCI) et l’algorithme Automatic Constraint Policy Optimization (ACPO) pour unifier et adapter les contraintes de politique. CCI fournit une vision unifiée de l’optimisation où le clonage comportemental pondéré (weighted behavior cloning, wBC), la régularisation de densité fondée sur la divergence de Kullback-Leibler et les contraintes de support apparaissent comme des cas particuliers d’un spectre continu. Sur cette base, ACPO formalise l’apprentissage adaptatif des contraintes comme un problème primal-dual et ajuste automatiquement le paramètre d’interpolation. La thèse établit aussi un lemme de différence de performance à entropie maximale ainsi que des bornes inférieures pour la politique optimale et sa projection paramétrique. Les expériences montrent qu’ACPO obtient des résultats cohérents sur divers benchmarks d’offline RL. Quatrièmement, cette thèse étudie les modes de défaillance des méthodes d’offline RL fondées sur les CVAE et identifie le phénomène de latent action projection space collapse, par lequel l’effondrement du posterior affaiblit l’optimisation de politique en aval. Sur cette base, la thèse propose Expand Latent Action Projection SpacE (ELAPSE), une méthode qui élargit l’espace de projection. ELAPSE améliore l’articulation entre la modélisation générative du comportement et l’optimisation de politique, et les résultats empiriques montrent qu’elle améliore substantiellement les performances de méthodes représentatives d’offline RL fondées sur les CVAE. Dans l’ensemble, cette thèse étudie l’offline RL sans modèle sous des angles méthodologique et algorithmique. Sur le plan analytique, elle clarifie les défis et l’évolution méthodologique de l’offline RL. Sur le plan algorithmique, elle développe de nouvelles méthodes pour l’évaluation et l’amélioration de politique ainsi que pour la modélisation générative du comportement. Ensemble, ces contributions font progresser l’offline RL vers une prise de décision sur données statiques plus fiable, plus adaptative et mieux fondée théoriquement.
Abstract :
Offline Reinforcement Learning (offline RL) seeks to learn decision-making policies from fixed datasets without further interaction with the environment. It is especially appealing in domains where online collection is costly, risky, or infeasible. However, offline RL faces fundamental challenges, including distribution shift, out-of-distribution (OOD) actions, and extrapolation error, which make reliable policy evaluation and improvement difficult. This thesis studies model-free offline RL with two goals: to understand its methodological evolution and to develop more effective offline RL algorithms. First, this thesis revisits offline RL through the lens of the deadly triad and analyzes its central challenges. Building on this perspective, it develops an algorithmic taxonomy of offline RL and traces the evolution of offline RL design principles. Rather than treating existing methods as isolated categories, the thesis highlights how major algorithmic families emerge and evolve in response to challenges such as value overestimation and distribution shift. Second, to address the tension between in-sample learning and multi-step learning, Projective Implicit Q-Learning (PIQL) is proposed. PIQL replaces the fixed expectile in Implicit Q-Learning with a projection-based adaptive parameter, enabling a multi-step interpretation while preserving the in-sample learning property. In addition, PIQL adopts a support-constrained policy-improvement objective that is better aligned with the policy-evaluation stage. Theoretical analysis establishes monotonic policy improvement and a progressively stricter criterion for advantageous actions, while experiments on standard benchmarks demonstrate strong performance. Third, the thesis introduces the Continuous Constraint Interpolation (CCI) framework and the Automatic Constraint Policy Optimization (ACPO) algorithm to unify and adapt policy constraints. CCI provides a unified optimization view in which weighted behavior cloning (wBC), KL-based density regularization, and support constraints arise as special cases along a continuous constraint spectrum. Building on CCI, ACPO formulates adaptive constraint learning as a primal-dual optimization problem and automatically tunes the interpolation parameter. The thesis also derives a maximum-entropy performance difference lemma and performance lower bounds for both the optimal policy and its parametric projection. Experiments show that ACPO achieves strong and consistent results across diverse offline RL benchmarks. Fourth, this thesis studies failure modes of CVAE-based offline RL and identifies latent action projection space collapse, a phenomenon whereby posterior collapse weakens downstream policy optimization. Based on this analysis, the thesis proposes Expand Latent Action Projection SpacE (ELAPSE), a simple yet effective method that enlarges the projection space. ELAPSE improves the cooperation between generative behavior modeling and policy optimization, and empirical results show that it substantially enhances the performance of representative CVAE-based offline RL methods. Overall, this thesis studies model-free offline RL from both methodological and algorithmic perspectives. At the analytical level, it clarifies the key challenges and the methodological evolution of offline RL. At the algorithmic level, it develops new methods for policy evaluation, policy improvement, and generative behavior modeling. Together, these contributions advance offline RL toward more reliable, adaptive, and theoretically grounded decision-making from static datasets.
