L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, ModĂ©lisation, Validation, Administration des RĂ©seaux
présentent
l’AVIS DE SOUTENANCE de Monsieur Mohammed ABDULLAH
AutorisĂ© Ă prĂ©senter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă TĂ©lĂ©com SudParis en :
Mathématiques et Informatique
« Optimisation de l’allocation des ressources dans les réseaux sans fil du futur en présence d’incertitude »
le JEUDI 27 NOVEMBRE 2025 Ă 14h00
Ă
Amphithéâtre Rose Dieng
19 Place Marguerite Perey 91120 Palaiseau
Membres du jury :
M. Tijani CHAHED, Professeur, TĂ©lĂ©com SudParis, FRANCE – Directeur de these
M. Salah Eddine EL AYOUBI, Professeur, L2S CentraleSupelec, Paris-Saclay University , FRANCE – CoDirecteur de these
Mme Ana BUšIć, ChargĂ©e de recherche, INRIA – Ecole Normale SupĂ©rieure, Paris, France, FRANCE – Examinateur
M. Michel KIEFFER, Professeur, L2S CentraleSupelec, Paris-Saclay University , FRANCE – Examinateur
M. Stefano SECCI, Professeur des universitĂ©s, National Conservatory of Arts and Crafts (CNAM), Computer Science Department, FRANCE – Rapporteur
M. Georges KADDOUM, Professeur, École de technologie supĂ©rieure (ÉTS), UniversitĂ© du QuĂ©bec, CANADA – Rapporteur
Invité :
M. Abdel LISSER, Professeur, L2S CentraleSupelec, Paris-Saclay University, FRANCE, co-encadrant
« Optimisation de l’allocation des ressources dans les réseaux sans fil du futur en présence d’incertitude »
présenté par Monsieur Mohammed ABDULLAH
Résumé :
Dans cette thèse, nous abordons le défi de l’allocation efficace des ressources sous incertitude pour le transport de trafic critique en temps ultra fiable dans les réseaux de nouvelle génération. Nous développons des méthodes d’optimisation et d’apprentissage en ligne qui fournissent des garanties de performance rigoureuses pour des exigences probabilistes à court terme et des contraintes cumulatives à long terme. Nous commençons avec les communications ultra fiables et à faible latence (URLLC). Les modèles antérieurs pour le délai probabiliste imposent soit de fortes hypothèses sur les arrivées, soit se concentrent principalement sur la stabilité des files d’attente. Nous assouplissons ces hypothèses et formulons une minimisation de l’utilisation des ressources sous contraintes de probabilité, valable pour des processus d’arrivées généraux. En exploitant les propriétés structurelles de l’espace des politiques, nous concevons des algorithmes efficaces de type bandit pour les contextes hors ligne (statistiques connues) et en ligne (statistiques inconnues). Ces algorithmes convergent de manière démontrable en un nombre fixe d’itérations tout en respectant des objectifs stricts de délai de 1 ms et de fiabilité de (10^{-5}), avec une consommation minimale de ressources. Nous poussons ensuite ces garanties vers l’URLLC extrême visant une latence de (0.1,mathrm{ms}) et une fiabilité de l’ordre de (10^{-7}), où la mise en file d’attente est interdite et où les schémas d’allocation de ressources doivent s’appuyer sur une information limitée des arrivées (échantillons historiques, moyenne, variance). Les méthodes statiques ont tendance à sur-allouer les ressources. Nous introduisons une politique de réservation dynamique en ligne basée sur une approche par scénario à fenêtre glissante, qui est robuste et sûre : elle suit les réservations minimales à partir de données empiriques et évite la sur-provision conservatrice tout en préservant des contraintes de QoS strictes. Nous considérons ensuite les communications orientées objectifs, en nous concentrant sur les applications haptiques très sensibles aux rafales de pertes de paquets. Nous proposons un cadre théorique de files d’attente qui minimise les coûts en ressources en présence de pertes dues à la fois aux collisions avec d’autres paquets haptiques et aux mauvaises conditions radio. Nous concevons une politique de contrôle conjointe combinant un renforcement adaptatif de la puissance de transmission avec la préemption de ressources initialement provisionnées pour le haut débit mobile amélioré (eMBB), régie par des politiques à seuil. Pour des utilisateurs hétérogènes, l’interdépendance entre groupes d’utilisateurs induit un espace décisionnel de haute dimension, rendant la recherche exhaustive irréalisable. Pour traiter cette complexité, nous utilisons un algorithme de recuit simulé modifié avec gestion des contraintes par rejet direct des politiques non réalisables ou par pénalités basées sur les coûts. Enfin, nous étudions la conformité à long terme et introduisons l’Optimisation convexe en ligne contrainte avec mémoire (COCO-M), où les pertes et les contraintes dépendent des (m) dernières décisions. Les travaux antérieurs considéraient principalement une longueur de mémoire fixe. Nous généralisons à des longueurs de mémoire arbitraires et intégrons des prédictions non fiables à court horizon, en fournissant les premiers algorithmes avec des bornes de regret sous-linéaire et de violation cumulative de contraintes sous-linéaire dans ce cadre général. Cela offre une boîte à outils polyvalente pour l’apprentissage en ligne et le contrôle prédictif de réseau en conditions adverses.
Abstract :
We address in this thesis the challenge of efficient resource allocation under uncertainty for the transport of time-critical ultra reliable traffic in next-generation networks. We develop optimization and online-learning methods that provide rigorous performance guarantees for short-horizon probabilistic requirements and long-term cumulative constraints. We begin with Ultra-Reliable Low-Latency Communications (URLLC). Prior models for probabilistic delay either impose strong assumptions on arrivals or focus primarily on queue stability. We relax these assumptions and formulate a chance-constrained minimization of resource usage that holds under general arrival processes. By exploiting structural properties of the policy space, we design efficient bandit-based algorithms for both offline (known statistics) and online (unknown statistics) settings. These algorithms provably converge in a fixed number of iterations while meeting stringent 1ms delay and (10^{-5}) reliability targets with minimal resource consumption. We then push these guarantees to extreme URLLC targeting (0.1,mathrm{ms}) latency and reliability on the order of (10^{-7}), where queuing is impermissible and the resource allocation schemes must rely on limited arrival information (historical samples, mean, variance). Static methods tend to over-allocate resources. We introduce an online, dynamic reservation policy based on a sliding-window scenario approach that is robust and safe: it tracks minimal reservations from empirical data and avoids conservative over-provisioning while preserving stringent QoS constraints. Next, we consider goal-oriented communications, focusing on haptic applications that are highly sensitive to bursts of packet losses. We propose a queuing-theoretic framework which minimizes resource costs in the presence of losses from both collisions with other haptic packets and poor radio conditions. We design a joint control policy that combines adaptive transmit-power boosting with preemption of resources initially provisioned for enhanced Mobile Broadband (eMBB), governed by threshold policies. For heterogeneous users, interdependence across user groups induces a high-dimensional decision space, ruling out exhaustive search. To address this complexity, we make use of a modified simulated-annealing algorithm with constraint handling through direct rejection of infeasible policies or cost-based penalties. Eventually, we study long-term compliance and introduce Constrained Online Convex Optimization with Memory (COCO-M), where losses and constraints depend on the last (m) decisions. Prior work considered mainly fixed memory length. We generalize to arbitrary memory lengths and incorporate untrusted short-horizon predictions, providing the first algorithms with provable sublinear regret and sublinear cumulative constraint violation in this general setting. This yields a versatile toolbox for online learning and predictive network control under adversarial conditions.
