{"id":7664,"date":"2026-06-24T20:01:34","date_gmt":"2026-06-24T18:01:34","guid":{"rendered":"https:\/\/samovar.telecom-sudparis.eu\/?p=7664"},"modified":"2026-06-24T20:01:35","modified_gmt":"2026-06-24T18:01:35","slug":"avis-de-soutenance-de-monsieur-sergei-berezin","status":"publish","type":"post","link":"https:\/\/samovar.telecom-sudparis.eu\/index.php\/2026\/06\/24\/avis-de-soutenance-de-monsieur-sergei-berezin\/","title":{"rendered":"AVIS DE SOUTENANCE de Monsieur Sergei BEREZIN"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">L&rsquo;Ecole doctorale : Ecole Doctorale de l&rsquo;Institut Polytechnique de Paris<br><br>et le Laboratoire de recherche SAMOVAR &#8211; Services r\u00e9partis, Architectures, Mod\u00e9lisation, Validation, Administration des R\u00e9seaux<\/h2>\n\n\n\n<p>pr\u00e9sentent<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">l\u2019AVIS DE SOUTENANCE de Monsieur Sergei BEREZIN<\/h2>\n\n\n\n<p>Autoris\u00e9 \u00e0 pr\u00e9senter ses travaux en vue de l\u2019obtention du Doctorat de l&rsquo;Institut Polytechnique de Paris, pr\u00e9par\u00e9 \u00e0 l&rsquo;Institut Polytechnique de Paris T\u00e9l\u00e9com SudParis en :<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Informatique<\/h2>\n\n\n\n<h1 class=\"wp-block-heading\">\u00ab D\u00e9tection de la toxicit\u00e9 en traitement automatique du langage naturel : modes de d\u00e9faillance et reformulation contextuelle \u00bb<\/h1>\n\n\n\n<p>le MERCREDI 24 JUIN 2026 \u00e0 9h00<\/p>\n\n\n\n<p>en ligne<\/p>\n\n\n\n<figure class=\"wp-block-embed\"><div class=\"wp-block-embed__wrapper\">\nhttps:\/\/teams.microsoft.com\/meet\/359627841032013?p=UTfbeml4jbZbpYdLgT\n<\/div><\/figure>\n\n\n\n<p><strong>Membres du jury :<\/strong><\/p>\n\n\n\n<p><strong>M. Noel&nbsp;CRESPI<\/strong>, Professor, T\u00e9l\u00e9com SudParis, FRANCE &#8211; Directeur de these<br><strong>Mme Marie-Jeanne&nbsp;LESOT<\/strong>, Full professor, Sorbonne Universit\u00e9, FRANCE &#8211; Rapporteur<br><strong>M. Reza&nbsp;FARAHBAKHSH<\/strong>, Associate Professor, Institut Polytechnique de Paris T\u00e9l\u00e9com SudParis, FRANCE &#8211; Co-encadrant de these<br><strong>M. Richard&nbsp;DUFOUR<\/strong>, Professor, Nantes Universit\u00e9, FRANCE &#8211; Examinateur<br><strong>Mme Farah&nbsp;BENAMARA<\/strong>, Full professor, Universit\u00e9 de Toulouse, FRANCE &#8211; Examinateur<br><strong>M. XIAOMING&nbsp;FU<\/strong>, Professor, UNIVERSITY OF G\u00d6TTINGEN, ALLEMAGNE &#8211; Examinateur<br><strong>M. SONG&nbsp;GUO<\/strong>, Professor, THE HONG KONG UNIVERSITY OF SCIENCE AND TECHNOLOGY, HONG-KONG &#8211; Examinateur<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">\u00ab D\u00e9tection de la toxicit\u00e9 en traitement automatique du langage naturel : modes de d\u00e9faillance et reformulation contextuelle \u00bb<\/h2>\n\n\n\n<h2 class=\"wp-block-heading\">pr\u00e9sent\u00e9 par Monsieur Sergei BEREZIN<\/h2>\n\n\n\n<p><strong>R\u00e9sum\u00e9 :<\/strong><\/p>\n\n\n\n<p>La d\u00e9tection de la toxicit\u00e9 est devenue une couche de s\u00e9curit\u00e9 centrale dans les pipelines de mod\u00e9ration en ligne ainsi que dans les d\u00e9ploiements de grands mod\u00e8les de langage (LLM). Pourtant, les mod\u00e8les contemporains de d\u00e9tection de la toxicit\u00e9 pr\u00e9sentent de mani\u00e8re r\u00e9currente une forte fragilit\u00e9, une faible capacit\u00e9 de g\u00e9n\u00e9ralisation et une vuln\u00e9rabilit\u00e9 \u00e0 la manipulation. Cette th\u00e8se soutient que ces \u00e9checs ne d\u00e9coulent pas uniquement de limitations techniques, mais d\u2019une conceptualisation erron\u00e9e de la toxicit\u00e9 comme propri\u00e9t\u00e9 intrins\u00e8que et statique du texte. Cette th\u00e8se est structur\u00e9e en deux parties. Dans la premi\u00e8re partie, nous mettons syst\u00e9matiquement en \u00e9vidence la fragilit\u00e9 des m\u00e9canismes actuels de d\u00e9tection de la toxicit\u00e9 et de s\u00e9curit\u00e9 \u00e0 travers une s\u00e9rie d\u2019\u00e9tudes adversariales. Nous introduisons une attaque multilingue par remplissage s\u00e9mantique qui contourne des d\u00e9tecteurs de toxicit\u00e9 en ajoutant du contenu positif, d\u00e9montrons des techniques indirectes de contournement fond\u00e9es sur des prompts (prompt-based jailbreaking) qui d\u00e9jouent les m\u00e9canismes de protection de mod\u00e8les de langage de pointe via l\u2019attaque Task-In-Prompt, et r\u00e9v\u00e9lons une vuln\u00e9rabilit\u00e9 critique aux entr\u00e9es visuellement structur\u00e9es \u00e0 travers des attaques d\u2019obfuscation bas\u00e9es sur l\u2019ASCII art. Ensemble, ces r\u00e9sultats montrent que les syst\u00e8mes de s\u00e9curit\u00e9 modernes reposent largement sur des indices de surface et manquent de robustesse s\u00e9mantique et contextuelle. Dans la seconde partie, nous identifions comme cause principale de ces d\u00e9faillances le caract\u00e8re mal d\u00e9fini et subjectif des annotations de toxicit\u00e9 utilis\u00e9es lors de l\u2019entra\u00eenement des mod\u00e8les. Nous reconceptualisons la toxicit\u00e9 comme un signal de stress socialement \u00e9mergent et d\u00e9pendant du contexte, plut\u00f4t que comme un attribut lexical. En nous appuyant sur des apports issus de la psychologie, des neurosciences et des sciences sociales computationnelles, nous formalisons cette perspective dans le Contextual Stress Framework (CSF), qui mod\u00e9lise la toxicit\u00e9 comme des violations de normes g\u00e9n\u00e9ratrices de stress au sein de contextes sp\u00e9cifiques. Comme instanciation concr\u00e8te, nous proposons PONOS (Proportion Of Negative Observed Sentiments), une m\u00e9trique fond\u00e9e sur la r\u00e9ception qui capture la r\u00e9ponse sociale collective \u00e0 un contenu. Une \u00e9valuation empirique men\u00e9e sur un corpus nouvellement construit montre que l\u2019approche propos\u00e9e am\u00e9liore la sensibilit\u00e9 contextuelle et l\u2019adaptabilit\u00e9 lorsqu\u2019elle est int\u00e9gr\u00e9e aux mod\u00e8les existants de d\u00e9tection de la toxicit\u00e9. Dans son ensemble, cette th\u00e8se \u00e9tablit qu\u2019une d\u00e9tection robuste des contenus toxiques n\u00e9cessite un changement de paradigme, passant d\u2019une classification textuelle fond\u00e9e sur des motifs superficiels \u00e0 des repr\u00e9sentations du pr\u00e9judice ancr\u00e9es dans le contexte. Elle offre ainsi \u00e0 la fois un diagnostic des d\u00e9faillances actuelles des syst\u00e8mes et une voie m\u00e9thodologique solide pour progresser.<br><strong>Abstract :<\/strong><\/p>\n\n\n\n<p>Toxicity detection has become a core safety layer in online moderation pipelines and in large language model (LLM) deployments, yet contemporary toxicity detection models consistently exhibit brittleness, poor generalisation, and susceptibility to manipulation. This thesis argues that these failures stem not only from technical limitations, but from a flawed conceptualisation of toxicity as an intrinsic and static property of text. This thesis is composed of two parts. In the first part, we systematically expose the fragility of current toxicity detection and safety mechanisms through a series of adversarial studies. We introduce a multilingual semantic padding attack that bypasses black-box toxicity detectors by appending positive content, demonstrate indirect prompt-based jailbreaking techniques that circumvent safeguards in state-of-the-art language models via the Task-In-Prompt attack, and reveal a critical vulnerability to visually structured inputs through ASCII art-based obfuscation attacks. Together, these results show that modern safety systems rely heavily on surface cues and lack semantic and contextual robustness. In the second part, we identify a primary cause of these failures as the ill-defined and subjective nature of toxicity labels used in model training. We reconceptualise toxicity as a socially emergent, context-dependent signal of stress rather than a lexical attribute. Drawing on insights from psychology, neuroscience, and computational social science, we formalise this perspective in the Contextual Stress Framework (CSF), which models toxicity as stress-inducing norm violations within specific contexts. As a concrete instantiation, we propose PONOS (Proportion Of Negative Observed Sentiments), a reception-based metric that captures collective social response to content. Empirical evaluation on a newly constructed dataset demonstrates that the proposed approach improves contextual sensitivity and adaptability when integrated alongside existing toxicity detection models. Overall, this thesis establishes that robust toxic speech detection requires a paradigm shift from pattern-based text classification towards contextually grounded representations of harm, offering both a diagnosis of current system failures and a principled path forward.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>L&rsquo;Ecole doctorale : Ecole Doctorale de l&rsquo;Institut Polytechnique de Paris et le Laboratoire de recherche SAMOVAR &#8211; Services r\u00e9partis, Architectures, Mod\u00e9lisation, Validation, Administration des R\u00e9seaux pr\u00e9sentent l\u2019AVIS DE SOUTENANCE de Monsieur Sergei BEREZIN Autoris\u00e9 \u00e0 pr\u00e9senter ses travaux en vue de l\u2019obtention du Doctorat de l&rsquo;Institut Polytechnique de Paris, pr\u00e9par\u00e9 \u00e0 l&rsquo;Institut Polytechnique de Paris [&hellip;]<\/p>\n","protected":false},"author":4,"featured_media":0,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"ocean_post_layout":"","ocean_both_sidebars_style":"","ocean_both_sidebars_content_width":0,"ocean_both_sidebars_sidebars_width":0,"ocean_sidebar":"","ocean_second_sidebar":"","ocean_disable_margins":"enable","ocean_add_body_class":"","ocean_shortcode_before_top_bar":"","ocean_shortcode_after_top_bar":"","ocean_shortcode_before_header":"","ocean_shortcode_after_header":"","ocean_has_shortcode":"","ocean_shortcode_after_title":"","ocean_shortcode_before_footer_widgets":"","ocean_shortcode_after_footer_widgets":"","ocean_shortcode_before_footer_bottom":"","ocean_shortcode_after_footer_bottom":"","ocean_display_top_bar":"default","ocean_display_header":"default","ocean_header_style":"","ocean_center_header_left_menu":"","ocean_custom_header_template":"","ocean_custom_logo":0,"ocean_custom_retina_logo":0,"ocean_custom_logo_max_width":0,"ocean_custom_logo_tablet_max_width":0,"ocean_custom_logo_mobile_max_width":0,"ocean_custom_logo_max_height":0,"ocean_custom_logo_tablet_max_height":0,"ocean_custom_logo_mobile_max_height":0,"ocean_header_custom_menu":"","ocean_menu_typo_font_family":"","ocean_menu_typo_font_subset":"","ocean_menu_typo_font_size":0,"ocean_menu_typo_font_size_tablet":0,"ocean_menu_typo_font_size_mobile":0,"ocean_menu_typo_font_size_unit":"px","ocean_menu_typo_font_weight":"","ocean_menu_typo_font_weight_tablet":"","ocean_menu_typo_font_weight_mobile":"","ocean_menu_typo_transform":"","ocean_menu_typo_transform_tablet":"","ocean_menu_typo_transform_mobile":"","ocean_menu_typo_line_height":0,"ocean_menu_typo_line_height_tablet":0,"ocean_menu_typo_line_height_mobile":0,"ocean_menu_typo_line_height_unit":"","ocean_menu_typo_spacing":0,"ocean_menu_typo_spacing_tablet":0,"ocean_menu_typo_spacing_mobile":0,"ocean_menu_typo_spacing_unit":"","ocean_menu_link_color":"","ocean_menu_link_color_hover":"","ocean_menu_link_color_active":"","ocean_menu_link_background":"","ocean_menu_link_hover_background":"","ocean_menu_link_active_background":"","ocean_menu_social_links_bg":"","ocean_menu_social_hover_links_bg":"","ocean_menu_social_links_color":"","ocean_menu_social_hover_links_color":"","ocean_disable_title":"default","ocean_disable_heading":"default","ocean_post_title":"","ocean_post_subheading":"","ocean_post_title_style":"","ocean_post_title_background_color":"","ocean_post_title_background":0,"ocean_post_title_bg_image_position":"","ocean_post_title_bg_image_attachment":"","ocean_post_title_bg_image_repeat":"","ocean_post_title_bg_image_size":"","ocean_post_title_height":0,"ocean_post_title_bg_overlay":0.5,"ocean_post_title_bg_overlay_color":"","ocean_disable_breadcrumbs":"default","ocean_breadcrumbs_color":"","ocean_breadcrumbs_separator_color":"","ocean_breadcrumbs_links_color":"","ocean_breadcrumbs_links_hover_color":"","ocean_display_footer_widgets":"default","ocean_display_footer_bottom":"default","ocean_custom_footer_template":"","ocean_post_oembed":"","ocean_post_self_hosted_media":"","ocean_post_video_embed":"","ocean_link_format":"","ocean_link_format_target":"self","ocean_quote_format":"","ocean_quote_format_link":"post","ocean_gallery_link_images":"on","ocean_gallery_id":[],"footnotes":""},"categories":[286,402],"tags":[],"class_list":["post-7664","post","type-post","status-publish","format-standard","hentry","category-fractualites-ennews-fr","category-seminaires-ness-2013-fr","entry"],"_links":{"self":[{"href":"https:\/\/samovar.telecom-sudparis.eu\/index.php\/wp-json\/wp\/v2\/posts\/7664","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/samovar.telecom-sudparis.eu\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/samovar.telecom-sudparis.eu\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/samovar.telecom-sudparis.eu\/index.php\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/samovar.telecom-sudparis.eu\/index.php\/wp-json\/wp\/v2\/comments?post=7664"}],"version-history":[{"count":1,"href":"https:\/\/samovar.telecom-sudparis.eu\/index.php\/wp-json\/wp\/v2\/posts\/7664\/revisions"}],"predecessor-version":[{"id":7665,"href":"https:\/\/samovar.telecom-sudparis.eu\/index.php\/wp-json\/wp\/v2\/posts\/7664\/revisions\/7665"}],"wp:attachment":[{"href":"https:\/\/samovar.telecom-sudparis.eu\/index.php\/wp-json\/wp\/v2\/media?parent=7664"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/samovar.telecom-sudparis.eu\/index.php\/wp-json\/wp\/v2\/categories?post=7664"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/samovar.telecom-sudparis.eu\/index.php\/wp-json\/wp\/v2\/tags?post=7664"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}