AVIS DE SOUTENANCE de Madame Wafaa MEBREK

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris

et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, ModĂ©lisation, Validation, Administration des RĂ©seaux

présentent

l’AVIS DE SOUTENANCE de Madame Wafaa MEBREK

AutorisĂ©e Ă  prĂ©senter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă  TĂ©lĂ©com SudParis en :

Informatique

« Traitement et raisonnement incrémental sur les flux RDF »

le JEUDI 28 NOVEMBRE 2024 Ă  14h00

Ă 

Amphithéùtre 6
19 Pl. Marguerite Perey, 91120 Palaiseau, France

Membres du jury :

M. Olivier CURĂ©, MaĂźtre de confĂ©rences, UniversitĂ© Paris-Est Marne-la-VallĂ©e, FRANCE – Rapporteur
M. Frederique LAFOREST , Professeure, INSA Lyon, laboratoire LIRIS, FRANCE – Rapporteur
M. Maxime LEFRANçOIS , Associate Professor, IMT – MINES Saint-Étienne – Institut Henri Fayol , Laboratoire LIMOS – UMR CNRS 6158 , FRANCE – Examinateur
Mme Zoubida KEDAD , Professeure, UniversitĂ© de Versailles Saint-Quentin-en-Yvelines, FRANCE – Examinateur
Mme Nadia ABCHICHE-MIMOUNI, MaĂźtresse de confĂ©rences, UniversitĂ© CĂŽte d’Azur, FRANCE – Examinateur
Mme Amel BOUZEGHOUB, Professeure, Telecom SudParis , FRANCE – Directeur de these

« Traitement et raisonnement incrémental sur les flux RDF »

présenté par Madame Wafaa MEBREK

Résumé :

Aujourd’hui, la prise de dĂ©cision en temps rĂ©el basĂ©e sur des flux de donnĂ©es provenant de sources hĂ©tĂ©rogĂšnes est de plus en plus rĂ©pandue dans de nombreux scĂ©narios industriels. En consĂ©quence, de nouveaux mĂ©canismes sont nĂ©cessaires pour gĂ©rer l’intĂ©gration des donnĂ©es. Pour relever ce dĂ©fi, la communautĂ© du Traitement de Flux RDF (RDF Stream Processing – RSP) a activement promu le modĂšle de donnĂ©es RDF et proposĂ© plusieurs modĂšles et langages pour interroger en continu et raisonner sur les flux RDF. Ainsi, le traitement de flux RDF et le raisonnement sont devenus un domaine de recherche important. Le raisonnement sur les flux donne un sens aux flux de donnĂ©es hĂ©tĂ©rogĂšnes, en constante Ă©volution et souvent bruyants. Atteindre un tel objectif nĂ©cessite une rĂ©Ă©valuation des paradigmes de rĂ©solution de problĂšmes, car les conclusions basĂ©es sur des donnĂ©es obsolĂštes doivent ĂȘtre rĂ©visĂ©es, de nouvelles informations arrivent constamment, et les dĂ©rivations prĂ©cĂ©dentes peuvent ĂȘtre reconsidĂ©rĂ©es. MalgrĂ© les progrĂšs rĂ©alisĂ©s au cours de la derniĂšre dĂ©cennie, de nombreux dĂ©fis restent Ă  relever. Tout d’abord, aucun moteur RSP ne peut gĂ©rer des requĂȘtes complexes, prendre en charge le raisonnement temporel ou intĂ©grer des sources de connaissances de fond. De plus, les problĂšmes liĂ©s Ă  la gestion de rĂšgles conflictuelles, au raisonnement Ă  la volĂ©e et de maniĂšre incremental, ainsi qu’au soutien du raisonnement multi-contexte dans des applications du monde rĂ©el soulignent la nĂ©cessitĂ© de progresser dans ce domaine. Cette thĂšse explore le domaine du raisonnement sur les flux et aborde le compromis entre le dĂ©bit de donnĂ©es et l’expressivitĂ©, et la contribution est double : (i) Tout d’abord, nous avons introduit un cadre basĂ© sur des agents multiples pour le traitement continu distribuĂ©. Ce cadre permet l’utilisation simultanĂ©e de plusieurs moteurs RSP, en exploitant leurs forces respectives et complĂ©mentaires. Il permet l’utilisation simultanĂ©e ou sĂ©quentielle de ces moteurs pour gĂ©rer des requĂȘtes complexes, offrant ainsi une solution plus polyvalente et complĂšte. (ii) DeuxiĂšmement, nous avons proposĂ© une nouvelle technique de raisonnement incrĂ©mentiel spĂ©cifiquement adaptĂ©e au fragment pratique de la logique temporelle linĂ©aire (Linear Temporal Logic – LARS). Cette technique vise Ă  optimiser les programmes LARS, amĂ©liorant ainsi leur efficacitĂ©. De plus, les capacitĂ©s du SystĂšme de Maintenance de la VĂ©ritĂ© des Assomptions (Assumption Truth Maintenance System – ATMS) sont Ă©tendues pour la mise Ă  jour des modĂšles. Cette extension facilite une gestion plus complĂšte des informations conflictuelles, contribuant Ă  la robustesse du raisonnement basĂ© sur des rĂšgles dans les scĂ©narios de flux. Cette double contribution implique la construction d’un cadre complet. Ce cadre comprend une couche de traitement des flux de donnĂ©es qui intĂšgre plusieurs moteurs RSP, permettant l’expression de requĂȘtes plus complexes en exploitant les avantages et les capacitĂ©s de ces moteurs. De plus, il intĂšgre une couche de raisonnement incrĂ©mentiel pour le raisonnement sur les flux basĂ© sur des rĂšgles, introduisant une nouvelle technique de raisonnement incrĂ©mentiel et Ă©tendant le SystĂšme de Maintenance de la VĂ©ritĂ© des Assomptions. Cette contribution fait progresser de maniĂšre significative la thĂ©orie et la pratique du traitement de flux expressif et du raisonnement. En abordant systĂ©matiquement ces dĂ©fis, nos amĂ©liorations proposĂ©es ouvrent la voie Ă  des systĂšmes plus sophistiquĂ©s et adaptables dans le paysage Ă©volutif du traitement et du raisonnement sur les flux. Les implications pratiques de ces contributions sont dĂ©montrĂ©es par une Ă©valuation expĂ©rimentale amĂ©liorĂ©e, testĂ©e et validĂ©e Ă  l’aide de donnĂ©es obtenues dans des scĂ©narios du monde rĂ©el.
Abstract :

Today, real-time decision-making based on data streams from heterogeneous sources is increasingly widespread in many industrial scenarios. As a result, new mechanisms are required to manage data integration. To address this challenge, the RDF Stream Processing (RSP) community actively promoted the RDF data model and proposed several models and languages for continuously querying and reasoning over RDF streams. Hence, RDF stream processing and reasoning became an important research field. Stream reasoning provides meaning to the heterogeneous, ever-evolving, and often noisy data streams. Achieving such a goal requires a re-evaluation of problem-solving paradigms, as conclusions based on obsolete data need to be revised, new information is constantly arriving, and previous derivations may be reconsidered. Despite the achievements made over the last decade, many challenges remain to overcome. Firstly, no RSP engine can handle complex queries, support temporal reasoning, or integrate background knowledge sources. Furthermore, the issues of managing conflicting rules, reasoning on-the-fly and incrementally, and supporting multi-context reasoning in real-world applications emphasize the necessity of pushing forward in this area. This thesis investigates the area of Stream Reasoning and tackles the trade-off between data throughput and expressiveness, and the contribution is twofold : (i) First, we introduced a multi-agent-based framework for distributed continuous processing. This framework allows the utilization of multiple RSP engines simultaneously, leveraging their respective and complementary strengths. It enables the concurrent or sequential use of these engines to handle complex queries, offering a more versatile and comprehensive solution. (ii) Second, we proposed a novel technique for incremental reasoning explicitly tailored for the practical plain Linear Temporal Logic (LARS) fragment. This technique aims to optimize LARS programs, enhancing their efficiency. In addition, the Assumption Truth Maintenance System (ATMS) capabilities are extended for model updating. This extension facilitates a more comprehensive handling of conflicting information, contributing to the robustness of rule-based reasoning in streaming scenarios. This dual contribution involves the construction of a comprehensive framework. This framework includes a data stream processing layer that integrates multiple RSP engines, enabling the expression of more complex queries by leveraging their benefits and capabilities. Additionally, it incorporates an incremental reasoning layer for rule-based stream reasoning, introducing a novel incremental reasoning technique and extending the Assumption Truth Maintenance System. This contribution significantly advances the theory and practice of expressive stream processing and reasoning. By systematically addressing these challenges, our proposed enhancements pave the way for more sophisticated and adaptable systems in the evolving landscape of stream processing and reasoning. The practical implications of these contributions are demonstrated through an improved experimental evaluation, which has been tested and validated using data obtained from real-world scenarios.