Interopérabilité des systèmes distribués produisant des flux de données sémantiques au profit de l’aide à la prise de décision

Avis de Soutenance de Monsieur Fethi BELGHAOUTI
Informatique
Soutiendra publiquement ses travaux de thèse intitulés

« Interopérabilité des systèmes distribués produisant des flux de données sémantiques au profit de l’aide à la prise de décision »

dirigés par Madame Amel BOUZEGHOUB

Quand: Soutenance prévue le jeudi 26 janvier 2017 à 14h00
Lieu : Télécom SudParis, 9 rue Charles Fourier 91011 EVRY Cedex, France
salle A003

Composition du jury proposé

Mme Amel BOUZEGHOUB	Télécom SudParis	Directeur de these
M. Mohand Said HACID	Université Claude Bernard Lyon 1	Rapporteur
M. Pascal PONCELET	Université de Montpellier	Rapporteur
M. Olivier CURé	Université Paris-Est Marne la Vallée	Examinateur
Mme Béatrice FINANCE	Université de Versailles St Quentin	Examinateur
Mme Zakia KAZI-AOUL	Institut Supérieur d’Électronique de Paris	Examinateur
Mme Raja CHIKY	Institut Supérieur d’Électronique de Paris	Invité

Mots-clés : Flux de données sémantiques,Donnée liées,big data,SPARQL continu,Détection de motifs fréquents,Compression

Résumé :
Internet est une source infinie de données émanant de sources telles que les réseaux sociaux ou les capteurs (domotique, ville intelligente, véhicule autonome, etc.). Ces données hétérogènes et de plus en plus volumineuses, peuvent être gérées grâce au web sémantique, qui propose de les homogénéiser et de les lier et de raisonner dessus, et aux systèmes de gestion de flux de données, qui abordent essentiellement les problèmes liés au volume, à la volatilité et à l’interrogation continue. L’alliance de ces deux disciplines a vu l’essor des systèmes de gestion de flux de données sémantiques RSP (RDF Stream Processing systems). L’objectif de cette thèse est de permettre à ces systèmes, via de nouvelles approches et algorithmes à faible coût, de rester opérationnels, voire plus performants, même en cas de gros volumes de données en entrée et/ou de ressources système limitées. Pour atteindre cet objectif, notre thèse s’articule principalement autour de la problématique du : « Traitement de flux de données sémantiques dans un contexte de systèmes informatiques à ressources limitées ». Elle adresse les questions de recherche suivantes : (i) Comment représenter un flux de données sémantiques ? Et (ii) Comment traiter les flux de données sémantiques entrants, lorsque leurs débits et/ou volumes dépassent les capacités du système cible ? Nous proposons comme première contribution une analyse des données circulant dans les flux de données sémantiques pour considérer non pas une succession de triplets indépendants mais plutôt une succession de graphes en étoiles, préservant ainsi les liens entre les triplets. En utilisant cette approche, nous avons amélioré significativement la qualité des réponses de quelques algorithmes d’échantillonnage bien connus dans la littérature pour le délestage des flux. L’analyse de la requête continue permet d’optimiser cette solution en repèrant les données non pertinentes pour être délestées les premières. Dans la deuxième contribution, nous proposons un algorithme de détection de motifs fréquents de graphes RDF dans les flux de données RDF, appelé FreGraPaD (Frequent RDF Graph Patterns Detection). C’est un algorithme en une passe, orienté mémoire et peu coûteux. Il utilise deux structures de données principales un vecteur de bits pour construire et identifier le motif de graphe RDF assurant une optimisation de l’espace mémoire et une table de hachage pour le stockage de ces derniers. La troisième contribution de notre thèse consiste en une solution déterministe de réduction de charge des systèmes RSP appelée POL (Pattern Oriented Load-shedding for RDF Stream Processing systems). Elle utilise des opérateurs booléens très peu coûteux, qu’elle applique aux deux motifs binaires construits de la donnée et de la requête continue pour déterminer et éjecter celle qui est non-pertinente. Elle garantit un rappel de 100%, réduit la charge du système et améliore son temps de réponse. Enfin, notre quatrième contribution est un outil de compression en ligne de flux RDF, appelé Patorc (Pattern Oriented Compression for RSP systems). Il se base sur les motifs fréquents présents dans les flux qu’il factorise. C’est une solution de compression sans perte de données dont l’interrogation sans décompression est très envisageable. Les solutions apportées par cette thèse permettent l’extension des systèmes RSP existants en leur permettant le passage à l’échelle dans un contexte de Bigdata. Elles leur permettent ainsi de manipuler un ou plusieurs flux arrivant à différentes vitesses, sans perdre de leur qualité de réponse et tout en garantissant leur disponibilité au-delà même de leurs limites physiques. Les résultats des expérimentations menées montrent que l’extension des systèmes existants par nos solutions améliore leurs performances. Elles illustrent la diminution considérable de leur temps de réponse, l’augmentation de leur seuil de débit de traitement en entrée tout en optimisant l’utilisation de leurs ressources systèmes.