L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux
présentent
l’AVIS DE SOUTENANCE de Madame Razieh CHALEHCHALEH
Autorisée à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :
Informatique
« Amélioration de la détection des fausses informations : des approches hybrides et multilingues à l’augmentation de données basée sur les LLM et l’analyse des biais »
le VENDREDI 13 FéVRIER 2026 à 10h00
à
online
Membres du jury :
M. Noel CRESPI, Professeur, Télécom SudParis, FRANCE – Directeur de these
M. Reza FARAHBAKHSH, Maître de conférences, Télécom SudParis, FRANCE – Co-encadrant de these
M. Christophe CERISARA, Chargé de recherche, CNRS – LORIA laboratory in Nancy, FRANCE – Examinateur
Mme Ioana MANOLESCU, Directrice de recherche, Inria , FRANCE – Rapporteur
Mme Tiziana MARGARIA, Professeure, University of Limerick, IRLANDE – Rapporteur
Mme Gabriella PASI, Professeure, University of Milano-Bicocca, ITALIE – Examinateur
« Amélioration de la détection des fausses informations : des approches hybrides et multilingues à l’augmentation de données basée sur les LLM et l’analyse des biais »
présenté par Madame Razieh CHALEHCHALEH
Résumé :
La prolifération des fausses informations sur les plateformes en ligne représente une menace critique pour les individus et les sociétés du monde entier. Cette thèse fait progresser la détection automatique des fausses informations grâce à quatre contributions complémentaires qui répondent aux limites fondamentales des approches actuelles : la dépendance aux seules caractéristiques de contenu, la recherche centrée sur l’anglais, la rareté des données et les biais inhérents aux grands modèles de langage (LLM). Premièrement, nous introduisons BRaG, un nouveau cadre hybride qui intègre des représentations textuelles basées sur BERT, une modélisation par réseaux de neurones récurrents des séquences d’engagement des utilisateurs, et un encodage par réseaux de neurones sur graphes des graphes de propagation. En exploitant conjointement le contenu et le contexte social, BRaG surpasse les modèles de référence unimodaux. Deuxièmement, nous étudions la détection multilingue des fausses informations en évaluant des modèles multilingues (mBERT, XLM-RoBERTa, LASER-LR) dans des scénarios d’entraînement monolingues, multilingues et interlingues (zero-shot cross-lingual), et en les comparant à des stratégies basées sur la traduction. Les résultats soulignent l’efficacité des modèles et des données multilingues, offrant des perspectives pour les contextes de langues peu dotées. Troisièmement, nous explorons l’augmentation de données basée sur les LLM en utilisant Llama 3. Nous examinons le prompting zero-shot et few-shot, des taux d’augmentation variés, l’augmentation spécifique aux classes, ainsi que le sous-échantillonnage aléatoire par rapport à celui basé sur la similarité, afin de générer des données synthétiques pour des classifieurs basés sur BERT. Avec des configurations appropriées, les données augmentées permettent d’obtenir des améliorations par rapport aux références multilingues. Enfin, nous menons la première étude systématique des biais de genre dans l’annotation de fausses informations par des LLM. En augmentant le jeu de données LIAR avec des variantes genrées des intitulés de poste des locuteurs et en évaluant six LLM de l’état de l’art à travers plusieurs métriques d’équité, nous constatons un comportement sensible au genre constant. Cela se manifeste par deux formes de biais : l’instabilité (jugements incohérents) et la directionnalité (différences systématiques entre les genres). Ces résultats montrent que les jugements de véracité rendus par les LLM sont influencés par la présentation du genre, soulignant la nécessité de stratégies d’atténuation conscientes des biais. À travers des expériences approfondies sur des jeux de données réels, cette thèse fournit de nouvelles méthodologies et des perspectives qui améliorent les systèmes de détection automatique de fausses informations.
Abstract :
The proliferation of fake news on online platforms poses critical threats to individuals and societies worldwide. This thesis advances automated fake news detection through four complementary contributions that address key limitations in current approaches: reliance on content-only features, English-centric research, data scarcity, and inherent bias in Large Language Models (LLMs). First, we introduce BRaG, a novel hybrid framework that integrates BERT-based text representations, recurrent neural network modeling of user engagement sequences, and graph neural network encoding of propagation graphs. By jointly leveraging content and social context features, BRaG outperforms single-modality baselines. Second, we investigate multilingual fake news detection, evaluating multilingual models (mBERT, XLM-RoBERTa, LASER-LR) under monolingual, multilingual, and zero-shot cross-lingual training scenarios, and comparing them with translation-based strategies. The results highlight the effectiveness of multilingual models and training data, offering insights for low-resource language settings. Third, we explore LLM-based data augmentation using Llama 3, examining zero-shot and few-shot prompting, varying augmentation rates, class-specific augmentation, and random vs. similarity-based subsampling to generate synthetic training data for BERT-based classifiers. With appropriate configurations, augmented data yields improvements over the multilingual baselines. Finally, we conduct the first systematic investigation of gender bias in LLM-based fake news annotation. By augmenting the LIAR dataset with gender-variant versions of speaker job titles and evaluating six state-of-the-art LLMs across multiple fairness metrics, we find consistent gender-sensitive behavior resulting in two bias manifestations—instability (inconsistent judgments) and directionality (systematic differences across genders). These results show that LLM-driven veracity judgments are influenced by gender presentation, underscoring the need for bias-aware mitigation strategies. Through extensive experiments on real-world datasets, this thesis provides novel methodologies and insights that enhance automated fake news detection systems.
