« Modélisation intégratrice du traitement Big Data »

Quand: LUNDI 19 SEPTEMBRE 2016 à 14h00
Où: en A003 à Télécom SudParis 9 rue Charles Fourier 91011 Evry Cedex

Membres du jury :

Mme Ana CAVALLI, Professeure, Télécom SudParis, FRANCE – Directeur de these
Mme Noëmie SIMONI, Professeure, Telecom ParisTech, FRANCE – Examinateur
Mme Karine ZEITOUNI, Professeure, Université de Versaille St Quentin (UVSQ), FRANCE – Examinateur
M. Daniel RANC, Ingénieur d’études, Télécom SudParis, FRANCE – Co-encadrant de these
Mme Genoveva VARGAS-SOLAR, Professeure, Laboratory of Informatics of Grenoble, FRANCE – Examinateur
M. Florent MASSEGLIA, Professeur, Université Montpellier 2 – Campus St Priest, FRANCE – Examinateur

Rapporteurs :

Madame Michelle SIBILLA, Professeure, IRIT – Toulouse – FRANCE

Monsieur Laurent D’ORAZIO, Maître de conférences, HDR – Université de Clermont-Ferrand – FRANCE

Résumé :

Dans le monde d’aujourd’hui de multiples acteurs de la technologie numérique produisent des quantités infinies de données. Capteurs, réseaux sociaux ou e-commerce, ils génèrent tous de l’information qui s’incrémente en temps-réel selon les 3 V de Gartner : en Volume, en Vitesse et en Variabilité. Afin d’exploiter efficacement et durablement ces données, il est important de respecter la dynamicité de leur évolution chronologique au moyen de deux approches : le polymorphisme d’une part, au moyen d’un modèle dynamique capable de supporter le changement de type à chaque instant sans failles de traitement ; d’autre part le support de la volatilité par un modèle intelligent prenant en compte des données clé seulement interprétables à un instant « t », au lieu de traiter toute la volumétrie des données actuelle et historique. L’objectif premier de cette étude est de pouvoir établir au moyen de ces approches une vision intégratrice du cycle de vie des données qui s’établit selon 3 étapes, (1) la synthèse des données via la sélection des valeurs-clés des micro-données acquises par les différents opérateurs au niveau de la source, (2) la fusion en faisant le tri des valeurs-clés sélectionnées et les dupliquant suivant un aspect de dé-normalisation afin d’obtenir un traitement plus rapide des données et (3) la transformation en un format particulier de carte de cartes de cartes, via Hadoop dans le processus classique de MapReduce afin d’obtenir un graphe défini dans la couche applicative. Cette réflexion est en outre soutenue par un prototype logiciel mettant en œuvre les opérateurs de modélisation sus-décrits et aboutissant à une boîte à outils de modélisation comparable à un AGL et, permettant une mise en place assistée d’un ou plusieurs traitements sur BigData.

Abstract :

Nowadays, multiple actors of Internet technology are producing very large amounts of data. Sensors, social media or e-commerce, all generate real-time extending information based on the 3 Vs of Gartner: Volume, Velocity and Variety. In order to efficiently exploit this data, it is important to keep track of the dynamic aspect of their chronological evolution by means of two main approaches: the polymorphism, a dynamic model able to support type changes every second with a successful processing and second, the support of data volatility by means of an intelligent model taking in consideration key-data, salient and valuable at a specific moment without processing all volumes of history and up to date data. The primary goal of this study is to establish, based on these approaches, an integrative vision of data life cycle set on 3 steps, (1) data synthesis by selecting key-values of micro-data acquired by different data source operators, (2) data fusion by sorting and duplicating the selected key-values based on a de-normalization aspect in order to get a faster processing of data and (3) the data transformation into a specific format of map of maps of maps, via Hadoop in the standard MapReduce process, in order to define the related graph in applicative layer. In addition, this study is supported by a software prototype using the already described modeling tools, as a toolbox compared to an automatic programming software and allowing to create a customized processing chain of BigData.