L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Guanlin LI

Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :

Informatique

« Méthodes frugales en données pour l’acquisition lexicale personnalisée »

le JEUDI 5 MARS 2026 à 9h00

à

Online

Teams meeting link:

https://teams.microsoft.com/l/meetup-join/19%3ameeting_OGRmNGEyZjQtMmJiZi00MzZiLWJiYTgtZjM2YTcwMzU0NDll%40thread.v2/0?context=%7b%22Tid%22%3a%22d47b090e-3f5a-4ca0-84d0-9f89d269f175%22%2c%22Oid%22%3a%227990e1ec-3c91-4936-880d-061e6fd518f2%22%7d

Meeting ID: 346 577 915 845 60
Passcode: iP3LJ2u5

Membres du jury :

M. Noel CRESPI, Full professor, Télécom SudParis, FRANCE – Directeur de these
M. Reyer ZWIGGELAAR, Full professor, Aberystwyth University, ROYAUME-UNI – Rapporteur
Mme Claire GARDENT, Directrice de recherche, LORIA, CNRS and Université de Lorraine, FRANCE – Examinatrice
M. François YVON, Directeur de recherche, ISIR, CNRS and Sorbonne Université, FRANCE – Rapporteur
Mme Yuki ARASE, Full professor, Institute of Science Tokyo, JAPON – Examinatrice
Mme Phi Le NGUYEN, Maîtresse de conférences, Hanoi University of Science and Technology, Acting Director, Institute for AI Innovation and Societal Impact (AI4LIFE) VIETNAM – Examinatrice
M. Cheng-Zhong XU, Full professor, IEEE Fellow, University of Macau, CHINE – Examinateur
Mme Praboda RAJAPAKSHA, Maîtresse de conférences, Aberystwyth University, ROYAUME-UNI – Co-encadrant de these

« Méthodes frugales en données pour l’acquisition lexicale personnalisée »

présenté par Monsieur Guanlin LI

Résumé :

Cette thèse étudie des méthodes computationnelles économes en données pour l’apprentissage personnalisé d’une langue seconde (SLA), avec un accent sur l’acquisition du vocabulaire chez les apprenants débutants. Bien que les grands modèles de langage (LLM) présentent de fortes capacités généralistes, leur application directe au SLA est limitée par le manque d’adaptation au domaine, la rareté des données annotées d’apprenants et le besoin de personnalisation fine. Cette thèse aborde ces défis à travers trois axes complémentaires : (i) le transfert translingue robuste, (ii) l’adaptation des entrées textuelles au niveau de compétence de l’apprenant et (iii) la prédiction personnalisée des connaissances lexicales. Premièrement, le transfert translingue zéro-shot est étudié comme fondation des systèmes SLA destinés à des apprenants aux langues premières variées. Nous proposons CoNLST, une méthode en deux étapes combinant apprentissage négatif contrastif et auto-apprentissage pour exploiter les échantillons de faible confiance dans la langue cible. L’utilisation de labels complémentaires améliore la calibration et réduit le biais de confirmation, tandis qu’un auto-apprentissage à seuils dynamiques, couplé à l’augmentation de données, exploite efficacement les pseudo-labels fiables. Des expériences sur XNLI avec mBERT et XLM-R montrent des gains constants par rapport à l’auto-apprentissage standard et une compatibilité avec les approches par alignement, produisant des représentations multilingues plus robustes pour des tâches translingues en aval. Deuxièmement, une méthode de simplification contrôlée de textes est proposée afin d’aligner les contenus linguistiques sur le niveau de compétence de l’apprenant. Motivée par l’idée que l’acquisition précoce d’une langue seconde devrait s’appuyer sur un input riche, fréquent et adapté au niveau, similaire à celui de l’acquisition de la langue maternelle, cette approche vise à générer un input propice à une acquisition naturaliste. La méthode repose sur l’apprentissage par renforcement, sans corpus parallèle complexe–simple, et formule la simplification comme un problème de recherche avec anticipation. Des récompenses aux niveaux du token et de la phrase permettent d’optimiser un LLM sur ses propres générations. L’approche améliore de plus de 20 % la couverture du vocabulaire cible sur CEFR-SP et TurkCorpus, sans dégradation de la qualité de simplification. Troisièmement, la thèse étudie la prédiction personnalisée de la connaissance lexicale (VKP), qui vise à estimer si un apprenant connaît un mot donné à partir de très peu de réponses annotées. Pour pallier la rareté des données, un pipeline de simulation d’apprenants fondé sur les LLM est proposé afin de générer des réponses synthétiques pour différentes cohortes de compétence. Sur cette base, un modèle multi-tâches exploitant des caractéristiques sémantiques et des régularités de cohortes est développé, surpassant nettement les approches fondées sur la fréquence et les méthodes à traits manuels, en particulier en régime de données très limitées. Une analyse en apprentissage actif montre en outre que des stratégies de requête adaptées sont particulièrement efficaces dans ces contextes. Dans l’ensemble, ces travaux proposent une perspective unifiée sur des méthodes de NLP personnalisées et économes en données pour le SLA. La thèse met en évidence des avancées qui renforcent la robustesse multilingue, permettent la génération d’input lexicalement adapté et soutiennent une modélisation fine des apprenants sous fortes contraintes de données, tout en soulignant le potentiel des LLM comme base pour de futurs systèmes d’apprentissage des langues sensibles aux besoins individuels.

Abstract :

This thesis investigates data-efficient computational methods for personalized second language acquisition (SLA), with a focus on vocabulary learning for early-stage learners. Although large language models (LLMs) exhibit strong general capabilities, their direct application to SLA is constrained by limited domain adaptation, scarce labeled learner data, and the need for fine-grained personalization. To address these challenges, the thesis develops three complementary lines of work: (i) robust cross-lingual transfer, (ii) proficiency-aligned input adaptation, and (iii) personalized vocabulary knowledge prediction. First, zero-shot cross-lingual transfer is studied as a foundational requirement for SLA systems serving learners with diverse first-language backgrounds. A two-stage method, CoNLST, is proposed, combining contrastive negative learning with self-training to exploit low-confidence target-language samples. Contrastive learning improves calibration and reduces confirmation bias, while dynamically thresholded self-training with data augmentation leverages high-confidence pseudo-labels. Experiments on XNLI with mBERT and XLM-R demonstrate consistent gains over standard self-training and compatibility with alignment-based methods, yielding stronger multilingual representations for downstream tasks, including low-resource SLA applications. Second, a controlled text simplification method is introduced to align input with learner proficiency. Motivated by the view that early-stage SLA should approximate first-language acquisition through rich, high-frequency, level-appropriate input, the method aims to generate proficiency-aligned text without parallel simplification corpora. The approach formulates simplification as a lookahead search problem and applies reinforcement learning with token- and sentence-level rewards to optimize an LLM on its own generations. The method improves target-level vocabulary coverage by over 20% on CEFR-SP and TurkCorpus, while maintaining simplification quality, demonstrating data-efficient control of learner-appropriate input. Third, the thesis addresses personalized vocabulary knowledge prediction (VKP), which estimates whether an individual learner knows a word given very limited annotations. To mitigate data scarcity, an LLM-based learner simulation pipeline generates synthetic response patterns across proficiency levels. A multi-task model leveraging both semantic features and cohort-level patterns is then proposed, substantially outperforming frequency-based and feature-engineered baselines, particularly in low-data regimes. Active learning analyses further show that principled querying is especially effective when learner observations are extremely limited. Overall, the thesis presents a unified framework for data-efficient, personalized NLP methods for SLA, advancing multilingual robustness, proficiency-aware input generation, and fine-grained learner modeling under severe data constraints. The findings highlight the potential of LLM-based approaches for adaptive language learning systems and provide a principled, frequency-based foundation for future research.

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Pariset le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux

l’AVIS DE SOUTENANCE de Monsieur Guanlin LI

Informatique

« Méthodes frugales en données pour l’acquisition lexicale personnalisée »

« Méthodes frugales en données pour l’acquisition lexicale personnalisée »

présenté par Monsieur Guanlin LI

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux