AVIS DE SOUTENANCE de Monsieur Etienne DAVID

L’Ecole doctorale : MathĂ©matiques Hadamard

et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, ModĂ©lisation, Validation, Administration des RĂ©seaux

présentent

l’AVIS DE SOUTENANCE de Monsieur Etienne DAVID

AutorisĂ© Ă  prĂ©senter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă  TĂ©lĂ©com SudParis en :

« modèles de prévision de séries temporelles appliqués à de grands ensembles de données avec inclusion de signaux externes »

le JEUDI 18 JANVIER 2024 Ă  14h00

Ă 

Amphithéâtre 2
Télécom SudParis, 19 place Marguerite Perey, 91120 Palaiseau
https://www.youtube.com/watch?v=YrhMmBeLOJc

Membres du jury :

M. Sylvain LE CORFF, Professeur, Sorbonne UniversitĂ©, FRANCE – Directeur de these
M. François DESBOUVRIES, Professeur, Telecom SudParis, FRANCE – Examinateur
Mme Marie PERROT-DOCKES, MaĂ®tresse de confĂ©rences, UniversitĂ© de Paris, FRANCE – Examinateur
M. Lionel TRUQUET, Professeur, ENSAI, FRANCE – Rapporteur
M. Joseph RYNKIEWICZ, MaĂ®tre de confĂ©rences, UniversitĂ© Paris 1, FRANCE – Rapporteur

« modèles de prévision de séries temporelles appliqués à de grands ensembles de données avec inclusion de signaux externes »

présenté par Monsieur Etienne DAVID

Résumé :

La prĂ©vision de sĂ©ries temporelles est un problème mathĂ©matique rĂ©pandu dans de nombreux secteurs, devenant un vĂ©ritable dĂ©fi pour les mĂ©thodes existantes de la littĂ©rature lorsque de grands ensembles de donnĂ©es rassemblant des milliers de sĂ©ries temporelles et des signaux externes sont considĂ©rĂ©s. Une illustration concrète de ce problème peut ĂŞtre trouvĂ©e dans l’industrie de la mode oĂą ses acteurs tentent d’anticiper l’évolution de milliers de vĂŞtements pour crĂ©er leurs collections, analysant les comportements des influenceurs pour proposer la mode de demain. En utilisant cette application comme fil conducteur, nous prĂ©sentons trois contributions explorant diffĂ©rentes rĂ©ponses concernant le problème de prĂ©vision de sĂ©ries temporelles oĂą de grands ensembles de donnĂ©es et des signaux externes sont considĂ©rĂ©s. Une première rĂ©ponse est proposĂ©e avec l’introduction d’un nouveau modèle hybride et la publication d’un large ensemble de donnĂ©es rassemblant 10000 sĂ©ries temporelles de mode et des signaux externes d’influenceurs. Une seconde approche est ensuite Ă©tudiĂ©e avec un travail thĂ©orique sur les modèles de Markov cachĂ©s Ă  signaux externes. Enfin, une dernière rĂ©ponse est proposĂ©e avec l’introduction d’une nouvelle mĂ©thode mĂ©langeant le fonctionnement interne des modèles de Markov cachĂ©s avec des rĂ©seaux de neurones. Les rĂ©sultats prĂ©sentĂ©s dans ces trois contributions ont mis en Ă©vidence plusieurs Ă©lĂ©ments de rĂ©ponse. Premièrement, les rĂ©seaux de neurones sont dĂ©cisifs pour traiter de grands ensembles de donnĂ©es et sont particulièrement bien conçus pour exploiter des signaux externes. Deuxièmement, les modèles de Markov cachĂ©s avec signaux externes sont Ă©galement des mĂ©thodes efficaces, capables de capturer des dĂ©pendances complexes entre des sĂ©ries temporelles et leurs signaux externes. Cependant, ils ne parviennent pas Ă  gĂ©rer de grands ensembles de donnĂ©es car un modèle doit ĂŞtre entraĂ®nĂ© pour chaque nouvelle sĂ©rie temporelle. Enfin, inspirĂ©s par les rĂ©sultats frappants des modèles de Markov cachĂ©s avec des signaux externes, nous montrons que l’introduction de processus cachĂ©s dans des modèles basĂ©s sur des rĂ©seaux neuronaux peut les aider Ă  explorer plus profondĂ©ment les grands ensembles de donnĂ©es, Ă  modĂ©liser une plus grande variĂ©tĂ© de comportements et Ă  exploiter plus finement les signaux externes.
Abstract :

Time series forecasting is a widespread mathematical problem in numerous sectors becoming a real challenge for existing methods of the literature where large datasets gathering thousands of time series and external signals are considered. A concrete illustration of this issue can be find in the fashion industry where its actors try to anticipate the evolution of thousands of garments to create their collections, analysing influencers and early adopters behaviours to propose the fashion of tomorrow. Using this application as a common thread, we present three contributions exploring different answers regarding the time series forecasting problem where large datasets and external signals are considered. A first answer is proposed with the introduction of a new hybrid model and the publication of a large dataset gathering 10000 fashion time series and influencers external signals. A second approach is then studied with theoretical work done on hidden Markov models with external signals. Finally, a last answer is proposed with the introduction of a new method mixing the inner workings of hidden Markov model and neural networks. Results presented in this three contribution highlighted several elements of answer. Firstly, neural networks are decisive to deal with large datasets and they are particularly well designed to leverage external signals. Secondly, hidden Markov models with external signals are also strong methods that can capture complex dependencies between time series and their external signals. However, they fail at handling large datasets as a model has to be trained for each new time series. Finally, inspired by the striking results of hidden Markov models with external signals, we reveal that introducing hidden processes in neural-network-based models can help them explore large datasets more deeply, model a richer variety of behaviour and leverage more finely external signals.