AVIS DE SOUTENANCE de Monsieur Sergei BEREZIN

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Sergei BEREZIN

Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à l’Institut Polytechnique de Paris Télécom SudParis en :

Informatique

« Détection de la toxicité en traitement automatique du langage naturel : modes de défaillance et reformulation contextuelle »

le MERCREDI 24 JUIN 2026 à 9h00

en ligne

https://teams.microsoft.com/meet/359627841032013?p=UTfbeml4jbZbpYdLgT

Membres du jury :

M. Noel CRESPI, Professor, Télécom SudParis, FRANCE – Directeur de these
Mme Marie-Jeanne LESOT, Full professor, Sorbonne Université, FRANCE – Rapporteur
M. Reza FARAHBAKHSH, Associate Professor, Institut Polytechnique de Paris Télécom SudParis, FRANCE – Co-encadrant de these
M. Richard DUFOUR, Professor, Nantes Université, FRANCE – Examinateur
Mme Farah BENAMARA, Full professor, Université de Toulouse, FRANCE – Examinateur
M. XIAOMING FU, Professor, UNIVERSITY OF GÖTTINGEN, ALLEMAGNE – Examinateur
M. SONG GUO, Professor, THE HONG KONG UNIVERSITY OF SCIENCE AND TECHNOLOGY, HONG-KONG – Examinateur

« Détection de la toxicité en traitement automatique du langage naturel : modes de défaillance et reformulation contextuelle »

présenté par Monsieur Sergei BEREZIN

Résumé :

La détection de la toxicité est devenue une couche de sécurité centrale dans les pipelines de modération en ligne ainsi que dans les déploiements de grands modèles de langage (LLM). Pourtant, les modèles contemporains de détection de la toxicité présentent de manière récurrente une forte fragilité, une faible capacité de généralisation et une vulnérabilité à la manipulation. Cette thèse soutient que ces échecs ne découlent pas uniquement de limitations techniques, mais d’une conceptualisation erronée de la toxicité comme propriété intrinsèque et statique du texte. Cette thèse est structurée en deux parties. Dans la première partie, nous mettons systématiquement en évidence la fragilité des mécanismes actuels de détection de la toxicité et de sécurité à travers une série d’études adversariales. Nous introduisons une attaque multilingue par remplissage sémantique qui contourne des détecteurs de toxicité en ajoutant du contenu positif, démontrons des techniques indirectes de contournement fondées sur des prompts (prompt-based jailbreaking) qui déjouent les mécanismes de protection de modèles de langage de pointe via l’attaque Task-In-Prompt, et révélons une vulnérabilité critique aux entrées visuellement structurées à travers des attaques d’obfuscation basées sur l’ASCII art. Ensemble, ces résultats montrent que les systèmes de sécurité modernes reposent largement sur des indices de surface et manquent de robustesse sémantique et contextuelle. Dans la seconde partie, nous identifions comme cause principale de ces défaillances le caractère mal défini et subjectif des annotations de toxicité utilisées lors de l’entraînement des modèles. Nous reconceptualisons la toxicité comme un signal de stress socialement émergent et dépendant du contexte, plutôt que comme un attribut lexical. En nous appuyant sur des apports issus de la psychologie, des neurosciences et des sciences sociales computationnelles, nous formalisons cette perspective dans le Contextual Stress Framework (CSF), qui modélise la toxicité comme des violations de normes génératrices de stress au sein de contextes spécifiques. Comme instanciation concrète, nous proposons PONOS (Proportion Of Negative Observed Sentiments), une métrique fondée sur la réception qui capture la réponse sociale collective à un contenu. Une évaluation empirique menée sur un corpus nouvellement construit montre que l’approche proposée améliore la sensibilité contextuelle et l’adaptabilité lorsqu’elle est intégrée aux modèles existants de détection de la toxicité. Dans son ensemble, cette thèse établit qu’une détection robuste des contenus toxiques nécessite un changement de paradigme, passant d’une classification textuelle fondée sur des motifs superficiels à des représentations du préjudice ancrées dans le contexte. Elle offre ainsi à la fois un diagnostic des défaillances actuelles des systèmes et une voie méthodologique solide pour progresser.
Abstract :

Toxicity detection has become a core safety layer in online moderation pipelines and in large language model (LLM) deployments, yet contemporary toxicity detection models consistently exhibit brittleness, poor generalisation, and susceptibility to manipulation. This thesis argues that these failures stem not only from technical limitations, but from a flawed conceptualisation of toxicity as an intrinsic and static property of text. This thesis is composed of two parts. In the first part, we systematically expose the fragility of current toxicity detection and safety mechanisms through a series of adversarial studies. We introduce a multilingual semantic padding attack that bypasses black-box toxicity detectors by appending positive content, demonstrate indirect prompt-based jailbreaking techniques that circumvent safeguards in state-of-the-art language models via the Task-In-Prompt attack, and reveal a critical vulnerability to visually structured inputs through ASCII art-based obfuscation attacks. Together, these results show that modern safety systems rely heavily on surface cues and lack semantic and contextual robustness. In the second part, we identify a primary cause of these failures as the ill-defined and subjective nature of toxicity labels used in model training. We reconceptualise toxicity as a socially emergent, context-dependent signal of stress rather than a lexical attribute. Drawing on insights from psychology, neuroscience, and computational social science, we formalise this perspective in the Contextual Stress Framework (CSF), which models toxicity as stress-inducing norm violations within specific contexts. As a concrete instantiation, we propose PONOS (Proportion Of Negative Observed Sentiments), a reception-based metric that captures collective social response to content. Empirical evaluation on a newly constructed dataset demonstrates that the proposed approach improves contextual sensitivity and adaptability when integrated alongside existing toxicity detection models. Overall, this thesis establishes that robust toxic speech detection requires a paradigm shift from pattern-based text classification towards contextually grounded representations of harm, offering both a diagnosis of current system failures and a principled path forward.