L’Ecole doctorale : Sciences et Technologies de l’Information et de la Communication
et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux
présentent
l’AVIS DE SOUTENANCE de Monsieur Nicolas GRANGER
Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Université Paris-Saclay, préparé à Télécom SudParis en Robotique
« Modélisation par réseaux de neurones profonds pour l’apprentissage continu d’objets et de gestes par un robot »
Quand: Le jeudi 10 janvier 2019 à 14h00
Où: à Télécom SudParis, Salle G09 – 9 rue Charles Fourier, 91120 ÉVRY
Membres du jury :
M. Mounim A. EL YACOUBI, Directeur d’études , Télécom SudParis, FRANCE | Directeur de these |
M. Gilles GASSO, Professeur, INSA Rouen, FRANCE | Rapporteur |
M. Fabien MOUTARDE, Professeur, Mines ParisTech, FRANCE | Rapporteur |
M. Hervé BREDIN, Chargé de Recherche, LIMSI, FRANCE | Examinateur |
Mme Alice CAPLIER, Professeur, Grenoble INP, FRANCE | Examinateur |
Mme Laurence LIKFORMAN-SULEM, Maître de Conférences, Telecom ParisTech/IDS, FRANCE | Examinateur |
Résumé :
Cette thèse a pour but de contribuer à améliorer les interfaces Homme-machine. En particulier, nos appareils devraient répliquer notre capacité à traiter continûment des flux d’information. Cependant, le domaine de l’apprentissage statistique dédié à la reconnaissance de séries temporelles pose de multiples défis. Nos travaux utilisent la reconnaissance de gestes comme exemple applicatif, ces données offrent un mélange complexe de poses corporelles et de mouvements, encodées sous des modalités très variées. La première partie de notre travail compare deux modèles temporels de l’état de l’art pour la reconnaissance continue sur des séquences, plus précisément l’hybride réseau de neurones — modèle de Markov caché (NN-HMM) et les réseaux de neurones récurrents bidirectionnels (BD-RNN) avec des unités commandées par des portes. Pour ce faire, nous avons implémenté un environnement de test partagé qui est plus favorable à une étude comparative équitable. Nous proposons des ajustements sur les fonctions de coût utilisées pour entraîner les réseaux de neurones et sur les expressions du modèle hybride afin de gérer un large déséquilibre des classes de notre base d’apprentissage. Bien que les publications récentes semblent privilégier l’architecture BD-RNN, nous démontrons que l’hybride NN-HMM demeure compétitif. Cependant, ce dernier est plus dépendant de son modèle d’entrées pour modéliser les phénomènes temporels à court terme. Enfin, nous montrons que les facteurs de variations appris sur les entrées par les deux modèles sont inter-compatibles. Dans un second temps, nous présentons une étude de l’apprentissage dit «en un coup» appliqué aux gestes. Ce paradigme d’apprentissage gagne en attention mais demeure peu abordé dans le cas de séries temporelles. Nous proposons une architecture construite autour d’un réseau de neurones bidirectionnel. Son efficacité est démontrée par la reconnaissance de gestes isolés issus d’un dictionnaire de langage des signes. À partir de ce modèle de référence, nous proposons de multiples améliorations inspirées par des travaux dans des domaines connexes, et nous étudions les avantages ou inconvénients de chacun.
Abstract :
This thesis aims to improve the intuitiveness of human–computer interfaces. In particular, machines should try to replicate human’s ability to process streams of information continuously. However, the sub-domain of Machine Learning dedicated to recognition on time series remains barred by numerous challenges. Our studies use gesture recognition as an exemplar application, gestures intermix static body poses and movements in a complex manner using widely different modalities. The first part of our work compares two state-of-the-art temporal models for continuous sequence recognition, namely Hybrid Neural Network–Hidden Markov Models (NN-HMM) and Bidirectional Recurrent Neural Networks (BDRNN) with gated units. To do so, we reimplemented the two within a shared test-bed which is more amenable to a fair comparative work. We propose adjustments to Neural Network training losses and the Hybrid NN-HMM expressions to accommodate for highly imbalanced data classes. Although recent publications tend to prefer BDRNNs, we demonstrate that Hybrid NN-HMM remain competitive. However, the latter rely significantly on their input layers to model short-term patterns. Finally, we show that input representations learned via both approaches are largely inter-compatible. The second part of our work studies one-shot learning, which has received relatively little attention so far, in particular for sequential inputs such as gestures. We propose a model built around a Bidirectional Recurrent Neural Network. Its effectiveness is demonstrated on the recognition of isolated gestures from a sign language lexicon. We propose several improvements over this baseline by drawing inspiration from related works and evaluate their performances, exhibiting different advantages and disadvantages for each.