L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux
présentent
l’AVIS DE SOUTENANCE de Monsieur Paul GUELORGET
Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :
Signal, Images, Automatique et robotique
« Apprentissage actif pour la détection d’objets d’intérêt opérationnel dans les contenus multimédia »
le vendredi 9 décembre 2022 à 14h00
Salle 4A467
Télécom SudParis – 19 place Marguerite Perey 91120 Palaiseau France
Ou le lien zoom de connexion vers la salle virtuelle de soutenance:
https://telecom-paris.zoom.us/j/97907486366?pwd=MUNvcXlKK0FhWVNMNzFZRGQ0M3Y1QT09
ID de réunion : 979 0748 6366
Code secret : 848029
Une seule touche sur l’appareil mobile
+33186995831,,97907486366#,,,,*848029# France
+33170372246,,97907486366#,,,,*848029# France
Composez un numéro en fonction de votre emplacement
+33 1 8699 5831 France
+33 1 7037 2246 France
+33 1 7037 9729 France
+33 1 7095 0103 France
+33 1 7095 0350 France
ID de réunion : 979 0748 6366
Code secret : 848029
Trouvez votre numéro local : https://telecom-paris.zoom.us/u/aeiq2fm6ax
Participer à l’aide d’un protocole SIP
97907486366@zoomcrc.com
Participer à l’aide d’un protocole H.323
162.255.37.11 (États-Unis (Ouest))
162.255.36.11 (États-Unis (Est))
115.114.131.7 (Mumbai – Inde)
115.114.115.7 (Hyderabad – Inde)
213.19.144.110 (Amsterdam Pays-Bas)
213.244.140.110 (Allemagne)
103.122.166.55 (Australie Sydney)
103.122.167.55 (Australie Melbourne)
149.137.40.110 (Singapour)
64.211.144.160 (Brésil)
149.137.68.253 (Mexique)
69.174.57.160 (Canada Toronto)
65.39.152.160 (Canada Vancouver)
207.226.132.110 (Japon Tokyo)
149.137.24.110 (Japon Osaka)
Code secret : 848029
ID de réunion : 979 0748 6366
Membres du jury :
M. Titus ZAHARIA, Professeur, Télécom SudParis, FRANCE – Directeur de thèse
M. Alexis JOLY, Directeur de recherche, Université de Montpellier, FRANCE – Rapporteur
Mme Jenny BENOIS-PINEAU, Professeure des universités, Université de Bordeaux, FRANCE – Rapporteure
Mme Anne VERROUST-BLONDET, Directrice de recherche, INRIA Paris, FRANCE – Examinatrice
M. Azeddine BEGHDADI, Professeur des universités, Université Sorbonne Paris Nord, FRANCE – Examinateur
M. Bruno GRILHERES, Cadre scientifique des EPIC, Airbus Defence and Space, FRANCE – Co-encadrant de thèse
Résumé :
Une profusion de contenus, artistes et interactions en source ouverte sont ciblées par les analystes à des fins commerciales, politiques ou de renseignement. Analyser l’immensité de ces données requiert une assistance automatisée. Bien que les propositions récentes en matière d’architectures de réseaux de neurones aient montré de fortes capacités envers les modalités image et texte, leur entraînement exploite des jeux de données massifs, inexistant pour la majorité des classes d’intérêt opérationnel. Pour résoudre ce problème, l’apprentissage actif tire parti de la grande quantité de documents non annotés en sollicitant un oracle humain pour obtenir les labels des documents présumés les plus informatifs, afin d’améliorer la précision. Cependant, les justifications derrière les décisions du modèle sont opaques et sans lien avec celles de l’oracle. De plus, à cause de ses longues étapes successives, le déroulement de l’apprentissage actif nuit à ses performances en temps réel. Nos contributions dans cette thèse visent à analyser et résoudre ces problèmes à quatre niveaux. Premièrement, nous observons les justifications derrière les décision d’un réseau de neurones. Deuxièmement, nous mettons ces justifications en perspective avec celles élaborées par des humains. Troisièmement, nous incitons un réseau de neurones à aligner ses justificatifs sur ceux d’un modèle professeur qui simule ceux d’un oracle humain, et améliorons sa précision. Finalement, nous mettons au point et exploitons un système d’apprentissage actif pour surmonter ses limitations usuelles. Ces études ont été menées sur des données uni-modales texte ou image, ou sur des paires multi-modales texte/image, principalement des articles de presse en anglais et en français. À travers les chapitres de cette thèse, nous traitons plusieurs cas d’utilisation parmi lesquels la reconnaissance du vague et des fausses nouvelles, la détection du manque d’avis contradictoires dans les articles et la classification d’articles comme abordant des sujets arbitrairement choisis, tels que les manifestations ou la violence.
Abstract : « Active learning for the detection of objects of operational interest in open-source multimedia content »
A profusion of openly accessible content, actors and interactions is targeted by analysts for intelligence, marketing or political purposes. Analysing the immensity of open source data requires automated assistance. Although recent propositions in neural network architectures have demonstrated strong capacities for image and text modalities, their training harnesses massive training datasets, non-existent for the majority of operational classes of interest. To address this issue, active learning takes advantage of the great amounts of unlabelled documents by soliciting from a human oracle the ground-truth labels of the presumed most informative documents, to improve accuracy. Yet, the model’s decision-making rationales are opaque and might be unrelated to those of the oracle. Furthermore, with its time-consuming iterative steps, the active learning workflow is detrimental to its real-time performances. Our contributions in this thesis aim to analyse and address these issues at four levels. Firstly, we observe the rationales behind a neural network’s decisions. Secondly, we put these rationales into perspective with human rationales. Thirdly, we try and make the neural network align its decision-making rationales with those of a teacher model to simulate the rationales of a human oracle and improve accuracy in what is called active learning with rationales. Finally, we design and exploit an active learning framework to overcome its usual limitations. These studies were conducted with uni-modal text and image data, and multi-modal text and image associations, principally press articles in English and French. Throughout this work’s chapters, we address several use cases among which fake news classification, vagueness classification, the detection of lack of contradiction in articles, the detection of arbitrary topics such as demonstrations and violence.