AVIS DE SOUTENANCE de Monsieur Etienne DAVID

L’Ecole doctorale : Mathématiques Hadamard

et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Etienne DAVID

Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :

« modèles de prévision de séries temporelles appliqués à de grands ensembles de données avec inclusion de signaux externes »

le JEUDI 18 JANVIER 2024 à 14h00

à

Amphithéâtre 2
Télécom SudParis, 19 place Marguerite Perey, 91120 Palaiseau
https://www.youtube.com/watch?v=YrhMmBeLOJc

Membres du jury :

M. Sylvain LE CORFF, Professeur, Sorbonne Université, FRANCE – Directeur de these
M. François DESBOUVRIES, Professeur, Telecom SudParis, FRANCE – Examinateur
Mme Marie PERROT-DOCKES, Maîtresse de conférences, Université de Paris, FRANCE – Examinateur
M. Lionel TRUQUET, Professeur, ENSAI, FRANCE – Rapporteur
M. Joseph RYNKIEWICZ, Maître de conférences, Université Paris 1, FRANCE – Rapporteur

« modèles de prévision de séries temporelles appliqués à de grands ensembles de données avec inclusion de signaux externes »

présenté par Monsieur Etienne DAVID

Résumé :

La prévision de séries temporelles est un problème mathématique répandu dans de nombreux secteurs, devenant un véritable défi pour les méthodes existantes de la littérature lorsque de grands ensembles de données rassemblant des milliers de séries temporelles et des signaux externes sont considérés. Une illustration concrète de ce problème peut être trouvée dans l’industrie de la mode où ses acteurs tentent d’anticiper l’évolution de milliers de vêtements pour créer leurs collections, analysant les comportements des influenceurs pour proposer la mode de demain. En utilisant cette application comme fil conducteur, nous présentons trois contributions explorant différentes réponses concernant le problème de prévision de séries temporelles où de grands ensembles de données et des signaux externes sont considérés. Une première réponse est proposée avec l’introduction d’un nouveau modèle hybride et la publication d’un large ensemble de données rassemblant 10000 séries temporelles de mode et des signaux externes d’influenceurs. Une seconde approche est ensuite étudiée avec un travail théorique sur les modèles de Markov cachés à signaux externes. Enfin, une dernière réponse est proposée avec l’introduction d’une nouvelle méthode mélangeant le fonctionnement interne des modèles de Markov cachés avec des réseaux de neurones. Les résultats présentés dans ces trois contributions ont mis en évidence plusieurs éléments de réponse. Premièrement, les réseaux de neurones sont décisifs pour traiter de grands ensembles de données et sont particulièrement bien conçus pour exploiter des signaux externes. Deuxièmement, les modèles de Markov cachés avec signaux externes sont également des méthodes efficaces, capables de capturer des dépendances complexes entre des séries temporelles et leurs signaux externes. Cependant, ils ne parviennent pas à gérer de grands ensembles de données car un modèle doit être entraîné pour chaque nouvelle série temporelle. Enfin, inspirés par les résultats frappants des modèles de Markov cachés avec des signaux externes, nous montrons que l’introduction de processus cachés dans des modèles basés sur des réseaux neuronaux peut les aider à explorer plus profondément les grands ensembles de données, à modéliser une plus grande variété de comportements et à exploiter plus finement les signaux externes.
Abstract :

Time series forecasting is a widespread mathematical problem in numerous sectors becoming a real challenge for existing methods of the literature where large datasets gathering thousands of time series and external signals are considered. A concrete illustration of this issue can be find in the fashion industry where its actors try to anticipate the evolution of thousands of garments to create their collections, analysing influencers and early adopters behaviours to propose the fashion of tomorrow. Using this application as a common thread, we present three contributions exploring different answers regarding the time series forecasting problem where large datasets and external signals are considered. A first answer is proposed with the introduction of a new hybrid model and the publication of a large dataset gathering 10000 fashion time series and influencers external signals. A second approach is then studied with theoretical work done on hidden Markov models with external signals. Finally, a last answer is proposed with the introduction of a new method mixing the inner workings of hidden Markov model and neural networks. Results presented in this three contribution highlighted several elements of answer. Firstly, neural networks are decisive to deal with large datasets and they are particularly well designed to leverage external signals. Secondly, hidden Markov models with external signals are also strong methods that can capture complex dependencies between time series and their external signals. However, they fail at handling large datasets as a model has to be trained for each new time series. Finally, inspired by the striking results of hidden Markov models with external signals, we reveal that introducing hidden processes in neural-network-based models can help them explore large datasets more deeply, model a richer variety of behaviour and leverage more finely external signals.