AVIS DE SOUTENANCE de Monsieur Paul GUELORGET

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, MOdĂ©lisation, Validation, Administration des RĂ©seaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Paul GUELORGET

AutorisĂ© Ă  prĂ©senter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă  TĂ©lĂ©com SudParis en :

Signal, Images, Automatique et robotique

« Apprentissage actif pour la détection d’objets d’intérêt opérationnel dans les contenus multimédia »

le vendredi 9 décembre 2022 à 14h00

Salle 4A467
TĂ©lĂ©com SudParis – 19 place Marguerite Perey 91120 Palaiseau France

Ou le lien zoom de connexion vers la salle virtuelle de soutenance:
https://telecom-paris.zoom.us/j/97907486366?pwd=MUNvcXlKK0FhWVNMNzFZRGQ0M3Y1QT09

ID de rĂ©union : 979 0748 6366
Code secret : 848029
Une seule touche sur l’appareil mobile
+33186995831,,97907486366#,,,,*848029# France
+33170372246,,97907486366#,,,,*848029# France

Composez un numéro en fonction de votre emplacement
+33 1 8699 5831 France
+33 1 7037 2246 France
+33 1 7037 9729 France
+33 1 7095 0103 France
+33 1 7095 0350 France
ID de rĂ©union : 979 0748 6366
Code secret : 848029
Trouvez votre numĂ©ro local : https://telecom-paris.zoom.us/u/aeiq2fm6ax

Participer à l’aide d’un protocole SIP
97907486366@zoomcrc.com

Participer à l’aide d’un protocole H.323
162.255.37.11 (États-Unis (Ouest))
162.255.36.11 (États-Unis (Est))
115.114.131.7 (Mumbai – Inde)
115.114.115.7 (Hyderabad – Inde)
213.19.144.110 (Amsterdam Pays-Bas)
213.244.140.110 (Allemagne)
103.122.166.55 (Australie Sydney)
103.122.167.55 (Australie Melbourne)
149.137.40.110 (Singapour)
64.211.144.160 (BrĂ©sil)
149.137.68.253 (Mexique)
69.174.57.160 (Canada Toronto)
65.39.152.160 (Canada Vancouver)
207.226.132.110 (Japon Tokyo)
149.137.24.110 (Japon Osaka)
Code secret : 848029
ID de rĂ©union : 979 0748 6366

Membres du jury :

M. Titus ZAHARIA, Professeur, TĂ©lĂ©com SudParis, FRANCE – Directeur de thèse
M. Alexis JOLY, Directeur de recherche, UniversitĂ© de Montpellier, FRANCE – Rapporteur
Mme Jenny BENOIS-PINEAU, Professeure des universitĂ©s, UniversitĂ© de Bordeaux, FRANCE – Rapporteure
Mme Anne VERROUST-BLONDET, Directrice de recherche, INRIA Paris, FRANCE – Examinatrice
M. Azeddine BEGHDADI, Professeur des universitĂ©s, UniversitĂ© Sorbonne Paris Nord, FRANCE – Examinateur
M. Bruno GRILHERES, Cadre scientifique des EPIC, Airbus Defence and Space, FRANCE – Co-encadrant de thèse


Résumé :

Une profusion de contenus, artistes et interactions en source ouverte sont ciblĂ©es par les analystes Ă  des fins commerciales, politiques ou de renseignement. Analyser l’immensitĂ© de ces donnĂ©es requiert une assistance automatisĂ©e. Bien que les propositions rĂ©centes en matière d’architectures de rĂ©seaux de neurones aient montrĂ© de fortes capacitĂ©s envers les modalitĂ©s image et texte, leur entraĂ®nement exploite des jeux de donnĂ©es massifs, inexistant pour la majoritĂ© des classes d’intĂ©rĂŞt opĂ©rationnel. Pour rĂ©soudre ce problème, l’apprentissage actif tire parti de la grande quantitĂ© de documents non annotĂ©s en sollicitant un oracle humain pour obtenir les labels des documents prĂ©sumĂ©s les plus informatifs, afin d’amĂ©liorer la prĂ©cision. Cependant, les justifications derrière les dĂ©cisions du modèle sont opaques et sans lien avec celles de l’oracle. De plus, Ă  cause de ses longues Ă©tapes successives, le dĂ©roulement de l’apprentissage actif nuit Ă  ses performances en temps rĂ©el. Nos contributions dans cette thèse visent Ă  analyser et rĂ©soudre ces problèmes Ă  quatre niveaux. Premièrement, nous observons les justifications derrière les dĂ©cision d’un rĂ©seau de neurones. Deuxièmement, nous mettons ces justifications en perspective avec celles Ă©laborĂ©es par des humains. Troisièmement, nous incitons un rĂ©seau de neurones Ă  aligner ses justificatifs sur ceux d’un modèle professeur qui simule ceux d’un oracle humain, et amĂ©liorons sa prĂ©cision. Finalement, nous mettons au point et exploitons un système d’apprentissage actif pour surmonter ses limitations usuelles. Ces Ă©tudes ont Ă©tĂ© menĂ©es sur des donnĂ©es uni-modales texte ou image, ou sur des paires multi-modales texte/image, principalement des articles de presse en anglais et en français. Ă€ travers les chapitres de cette thèse, nous traitons plusieurs cas d’utilisation parmi lesquels la reconnaissance du vague et des fausses nouvelles, la dĂ©tection du manque d’avis contradictoires dans les articles et la classification d’articles comme abordant des sujets arbitrairement choisis, tels que les manifestations ou la violence.


Abstract : « Active learning for the detection of objects of operational interest in open-source multimedia content »

A profusion of openly accessible content, actors and interactions is targeted by analysts for intelligence, marketing or political purposes. Analysing the immensity of open source data requires automated assistance. Although recent propositions in neural network architectures have demonstrated strong capacities for image and text modalities, their training harnesses massive training datasets, non-existent for the majority of operational classes of interest. To address this issue, active learning takes advantage of the great amounts of unlabelled documents by soliciting from a human oracle the ground-truth labels of the presumed most informative documents, to improve accuracy. Yet, the model’s decision-making rationales are opaque and might be unrelated to those of the oracle. Furthermore, with its time-consuming iterative steps, the active learning workflow is detrimental to its real-time performances. Our contributions in this thesis aim to analyse and address these issues at four levels. Firstly, we observe the rationales behind a neural network’s decisions. Secondly, we put these rationales into perspective with human rationales. Thirdly, we try and make the neural network align its decision-making rationales with those of a teacher model to simulate the rationales of a human oracle and improve accuracy in what is called active learning with rationales. Finally, we design and exploit an active learning framework to overcome its usual limitations. These studies were conducted with uni-modal text and image data, and multi-modal text and image associations, principally press articles in English and French. Throughout this work’s chapters, we address several use cases among which fake news classification, vagueness classification, the detection of lack of contradiction in articles, the detection of arbitrary topics such as demonstrations and violence.