• Accueil
  • Accueil
  • Accueil
  • Accueil

CNRS

Rechercher




Accueil > Productions scientifiques > Thèses SAMOVAR > Thèses 2020

Soutenance de Madame Rajapaksha PRABODA, « Détection de Clickbait utilisant Fusion Multimodale et Apprentissage par Transfert »

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR présentent
l’AVIS DE SOUTENANCE de Madame Rajapaksha Waththe Vidanelage PRABODA CHATHURANGANI RAJAPAKSHA
Autorisée à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :
Informatique
« Détection de Clickbait utilisant Fusion Multimodale et Apprentissage par Transfert »

le vendredi 27 novembre 2020 à 11h00

SOUTENANCE EN VISIO

Membres du jury :

M. Noel CRESPI, Professeur,
Télécom SudParis, FRANCE
Directeur de thèse
M. Xiaoming FU, Professeur,
Institute of Computer Science, University of Goettingen , ALLEMAGNE
Rapporteur
M. Christophe CERISARA, Chargé de recherche,
CNRS, LORIA, Nancy, FRANCE
Rapporteur
M. Bruce MAGGS, Professeur,
Department of Computer Science, Duke University, USA, ETATS-UNIS
Examinateur
M. Gareth TYSON, Maître de conférences,
Queen Mary University of London, ROYAUME-UNI
Examinateur
Mme Cécile BOTHOREL, Professeure agrégée,
IMT Atlantique, Télécom Bretagne, FRANCE
Examinatrice

Résumé :

Les internautes sont susceptibles d’être victimes de clickbait en se faisant passer pour des informations légitimes. La notoriété du clickbait peut être partiellement attribuée à la désinformation car le clickbait utilise un titre attrayant qui est trompeur, trompeur ou sensationnaliste. Un type majeur de clickbait se présente sous la forme de spam et de publicités qui sont utilisés pour rediriger les utilisateurs vers des sites Web qui vendent des produits ou des services (souvent de qualité douteuse). Un autre type courant d’appât à cliquer est conçu pour apparaître comme les titres des actualités et rediriger les lecteurs vers leurs sites en ligne dans l’intention de générer des revenus à partir des pages vues, mais ces nouvelles peuvent être trompeuses, sensationnalistes et trompeuses. Les médias d’information utilisent souvent le clickbait pour propager des nouvelles en utilisant un titre qui manque de plus de contexte pour représenter l’article. Étant donné que les médias d’information échangent des informations en agissant à la fois en tant que fournisseurs de contenu et en tant que consommateurs de contenu, la désinformation délibérément créée pour induire en erreur nécessite une attention particulière. Par conséquent, un mécanisme automatisé est nécessaire pour explorer la probabilité qu’une actualité soit un appât au clic. Prédire à quel point le clickbaity d’une actualité donnée est difficile car les clickbait sont des messages très courts et écrits de manière obscure. La principale caractéristique qui permet d’identifier le clickbait est d’explorer l’écart entre ce qui est promis dans la publication sur les réseaux sociaux, le titre de l’actualité et ce qui est livré par l’article qui en est lié. L’amélioration récente du traitement du langage naturel (PNL) peut être adaptée pour distinguer les modèles linguistiques et les syntaxes entre les publications sur les réseaux sociaux, les titres et les articles de presse. Dans ma thèse, je propose deux approches innovantes pour explorer le clickbait généré par les médias d’information dans les médias sociaux. Les contributions de ma thèse sont doubles : 1) proposer une approche multimodèle basée sur la fusion en incorporant des techniques d’apprentissage en profondeur et de text mining et 2) adapter les modèles de transfert d’apprentissage (TL) pour étudier l’efficacité des transformateurs pour prédire le contenu des appâts clics. Dans la première contribution, le modèle de fusion repose sur l’utilisation de trois caractéristiques principales, à savoir la similitude entre la publication et le titre, le sentiment de la publication et du titre et la similitude d’actualité entre l’article de presse et la publication. Le modèle de fusion utilise trois algorithmes différents pour générer une sortie pour chaque caractéristique mentionnée ci-dessus et les fusionner à la sortie pour générer le classificateur final. La deuxième contribution est d’adapter les modèles TL pour la détection des appâts cliquables. Nous évaluons les performances de trois modèles TL (BERT, XLNet et RoBERTa) et avons fourni un ensemble de modifications architecturales pour optimiser ces modèles. Nous pensons que ces modèles sont les représentants de la plupart des autres modèles TL en termes de propriétés architecturales (modèle autorégressif vs modèle d’autoencodage) et de jeux de données d’entraînement. Les expériences sont menées en introduisant des approches avancées de réglage fin pour chaque modèle telles que l’élagage des couches, l’élagage à l’attention, l’élagage au poids, l’expansion et la généralisation du modèle. À la connaissance des auteurs, il y a eu un nombre insignifiant de tentatives d’utilisation des modèles TL sur les tâches de détection des appâts cliquables et aucune analyse comparative de plusieurs modèles TL axés sur cette tâche.

Abstract :

Internet users are likely to be victims to clickbait assuming as legitimate news. The notoriety of clickbait can be partially attributed to misinformation as clickbait use an attractive headline that is deceptive, misleading or sensationalized. A major type of clickbait are in the form of spam and advertisements that are used to redirect users to web sites that sells products or services (often of dubious quality). Another common type of clickbait are designed to appear as news headlines and redirect readers to their online venues intending to make revenue from page views, but these news can be deceptive, sensationalized and misleading. News media often use clickbait to propagate news using a headline which lacks greater context to represent the article. Since news media exchange information by acting as both content providers and content consumers, misinformation that is deliberately created to mislead requires serious attention. Hence, an automated mechanism is required to explore likelihood of a news item being clickbait. Predicting how clickbaity a given news item is difficult as clickbait are very short messages and written in obscured way. The main feature that can identify clickbait is to explore the gap between what is promised in the social media post, news headline and what is delivered by the article linked from it. The recent enhancement to Natural Language Processing (NLP) can be adapted to distinguish linguistic patterns and syntaxes among social media post, news headline and news article. In my Thesis, I propose two innovative approaches to explore clickbait generated by news media in social media. Contributions of my Thesis are two-fold : 1) propose a multimodel fusion-based approach by incorporating deep learning and text mining techniques and 2) adapt Transfer Learning (TL) models to investigate the efficacy of transformers for predicting clickbait contents. In the first contribution, the fusion model is built on using three main features, namely similarity between post and headline, sentiment of the post and headline and topical similarity between news article and post. The fusion model uses three different algorithms to generate output for each feature mentioned above and fuse them at the output to generate the final classifier. In addition to implementing the fusion classifier, we conducted four extended experiments mainly focusing on news media in social media. The first experiment is on exploring content originality of a social media post by amalgamating the features extracted from author’s writing style and online circadian rhythm. This originality detection approach is used to identify news dissemination patterns among news media community in Facebook and Twitter by observing news originators and news consumers. For this experiment, dataset is collected with our implemented crawlers from Facebook and Twitter streaming APIs. The next experiment is on exploring flaming events in the news media in Twitter by using an improved sentiment classification model. The final experiment is focused on detecting topics that are discussed in a meeting real-time aiming to generate a brief summary at the end. The second contribution is to adapt TL models for clickbait detection. We evaluate the performance of three TL models (BERT, XLNet and RoBERTa) and delivered a set of architectural changes to optimize these models. We believe that these models are the representatives of most of the other TL models in terms of their architectural properties (Autoregressive model vs Autoencoding model) and training datasets. The experiments are conducted by introducing advanced fine-tuning approaches to each model such as layer pruning, attention pruning, weight pruning, model expansion and generalization. To the best of authors’ knowledge, there have been an insignificant number of attempts to use TL models on clickbait detection tasks and no any comparative analysis of multiple TL models focused on this task.