SAMOVAR UMR 5157

  • Accueil
  • Accueil
  • Accueil
  • Accueil

CNRS

Rechercher




Accueil > Équipes > ARMEDIA > Séminaires ARMEDIA > Séminaires 2017

« Gesture sequence recognition by hybrid and end-to-end deep learning models ».

« Gesture sequence recognition by hybrid and end-to-end deep learning models ».

L’équipe ARMEDIA organise un séminaire le jeudi 14 décembre 2017 autour du thème "deep learning", ayant pour conférencier invité Nicolas Granger, actuellement en troisième année de doctorat à Telecom SudParis, sous la direction de Mounim A. El Yacoubi.
Nicolas présentera ses travaux de recherche sur la reconnaissance de séquences de gestes dans un flux vidéo continu, par des modèles statistiques temporels de type HMMs, LSTM/GRU combinés avec des CNN/MLP, donnant lieu soit à des HMMs hybrides, soit à des réseaux de neurones dits « end-to-end ».

Le séminaire se déroule sur le site de NanoInnov avec une transmission en visioconférence en salle H218 de l’Etoile (sauf perturbations de réseau).

Pour les personnes souhaitant se rendre sur le site de NanoInnov, pensez à vous inscrire auprès de Mounîm pour des questions de sécurité d’accès sur le site, avant Mercredi à 12h00
(mounim.el_yacoubi@telecom-sudparis.eu).

Le détail du séminaire est précisé ci-dessous :
-Date : Le jeudi 14 décembre 2017 à 15h.
- Lieu : NanoInnov, Bât 61, salle 2053.

Il faudra passer par l’accueil au bât 862 pour récupérer un badge et appeler ensuite pour que Mounîm vienne vous chercher (01 70 22 02 60 - 06 83 70 12 89).

Titre : « Gesture sequence recognition by hybrid and end-to-end deep learning models ».
- 
Présentation en anglais par Nicolas Granger.
- 
Abstract
The latest developments of Machine Learning on sequence classification, such as speech or hand-writing recognition, have been largely dominated by the use of Neural Networks(NNs). A common approach takes the form of Hybrid Neural-Network/Hidden Markov Model(HMM) classifiers, where NNs typically shine due to their ability to capture underlying feature representations from low-level input data, while HMMs take care of the temporal modelling. However, with the advances of Recurrent Neural Networks(RNNs) leading to LSTM/GRU-like architectures, fully neural deep models have now become a de facto standard. These approaches, offering standalone models with end-to-end training, based on the target loss function, have obtained higher accuracy results on several sequence recognition tasks. The objective of this seminar is to give insights on the extent to which these higher accuracies are systematic, and whether there are modeling situations where end-to-end LSTML/GRU models actually do not outperform HMM/NN models. To this end, we will analyze the differences between Hybrid NN/HMM and RNN based approaches, by investigating the impact of the key modelling components of each model.
After introducing the basics of sequence classification, we will present the experimental test-bed for this comparison, and then develop some of the most notable findings of this comparative study. Our experiments will be based on the Chalearn 2014 dataset, composed of recorded gesture sequences within a continuous video stream. These gestures are challenging as they are high dimensional and highly imbalanced in terms of class distribution, therefore requiring specific training adjustments as we will show.