L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux
présentent
l’AVIS DE SOUTENANCE de Madame Wafaa MEBREK
Autorisée à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :
Informatique
« Traitement et raisonnement incrémental sur les flux RDF »
le JEUDI 28 NOVEMBRE 2024 à 14h00
à
Amphithéâtre 6
19 Pl. Marguerite Perey, 91120 Palaiseau, France
Membres du jury :
M. Olivier CURé, Maître de conférences, Université Paris-Est Marne-la-Vallée, FRANCE – Rapporteur
M. Frederique LAFOREST , Professeure, INSA Lyon, laboratoire LIRIS, FRANCE – Rapporteur
M. Maxime LEFRANçOIS , Associate Professor, IMT – MINES Saint-Étienne – Institut Henri Fayol , Laboratoire LIMOS – UMR CNRS 6158 , FRANCE – Examinateur
Mme Zoubida KEDAD , Professeure, Université de Versailles Saint-Quentin-en-Yvelines, FRANCE – Examinateur
Mme Nadia ABCHICHE-MIMOUNI, Maîtresse de conférences, Université Côte d’Azur, FRANCE – Examinateur
Mme Amel BOUZEGHOUB, Professeure, Telecom SudParis , FRANCE – Directeur de these
« Traitement et raisonnement incrémental sur les flux RDF »
présenté par Madame Wafaa MEBREK
Résumé :
Aujourd’hui, la prise de décision en temps réel basée sur des flux de données provenant de sources hétérogènes est de plus en plus répandue dans de nombreux scénarios industriels. En conséquence, de nouveaux mécanismes sont nécessaires pour gérer l’intégration des données. Pour relever ce défi, la communauté du Traitement de Flux RDF (RDF Stream Processing – RSP) a activement promu le modèle de données RDF et proposé plusieurs modèles et langages pour interroger en continu et raisonner sur les flux RDF. Ainsi, le traitement de flux RDF et le raisonnement sont devenus un domaine de recherche important. Le raisonnement sur les flux donne un sens aux flux de données hétérogènes, en constante évolution et souvent bruyants. Atteindre un tel objectif nécessite une réévaluation des paradigmes de résolution de problèmes, car les conclusions basées sur des données obsolètes doivent être révisées, de nouvelles informations arrivent constamment, et les dérivations précédentes peuvent être reconsidérées. Malgré les progrès réalisés au cours de la dernière décennie, de nombreux défis restent à relever. Tout d’abord, aucun moteur RSP ne peut gérer des requêtes complexes, prendre en charge le raisonnement temporel ou intégrer des sources de connaissances de fond. De plus, les problèmes liés à la gestion de règles conflictuelles, au raisonnement à la volée et de manière incremental, ainsi qu’au soutien du raisonnement multi-contexte dans des applications du monde réel soulignent la nécessité de progresser dans ce domaine. Cette thèse explore le domaine du raisonnement sur les flux et aborde le compromis entre le débit de données et l’expressivité, et la contribution est double : (i) Tout d’abord, nous avons introduit un cadre basé sur des agents multiples pour le traitement continu distribué. Ce cadre permet l’utilisation simultanée de plusieurs moteurs RSP, en exploitant leurs forces respectives et complémentaires. Il permet l’utilisation simultanée ou séquentielle de ces moteurs pour gérer des requêtes complexes, offrant ainsi une solution plus polyvalente et complète. (ii) Deuxièmement, nous avons proposé une nouvelle technique de raisonnement incrémentiel spécifiquement adaptée au fragment pratique de la logique temporelle linéaire (Linear Temporal Logic – LARS). Cette technique vise à optimiser les programmes LARS, améliorant ainsi leur efficacité. De plus, les capacités du Système de Maintenance de la Vérité des Assomptions (Assumption Truth Maintenance System – ATMS) sont étendues pour la mise à jour des modèles. Cette extension facilite une gestion plus complète des informations conflictuelles, contribuant à la robustesse du raisonnement basé sur des règles dans les scénarios de flux. Cette double contribution implique la construction d’un cadre complet. Ce cadre comprend une couche de traitement des flux de données qui intègre plusieurs moteurs RSP, permettant l’expression de requêtes plus complexes en exploitant les avantages et les capacités de ces moteurs. De plus, il intègre une couche de raisonnement incrémentiel pour le raisonnement sur les flux basé sur des règles, introduisant une nouvelle technique de raisonnement incrémentiel et étendant le Système de Maintenance de la Vérité des Assomptions. Cette contribution fait progresser de manière significative la théorie et la pratique du traitement de flux expressif et du raisonnement. En abordant systématiquement ces défis, nos améliorations proposées ouvrent la voie à des systèmes plus sophistiqués et adaptables dans le paysage évolutif du traitement et du raisonnement sur les flux. Les implications pratiques de ces contributions sont démontrées par une évaluation expérimentale améliorée, testée et validée à l’aide de données obtenues dans des scénarios du monde réel.
Abstract :
Today, real-time decision-making based on data streams from heterogeneous sources is increasingly widespread in many industrial scenarios. As a result, new mechanisms are required to manage data integration. To address this challenge, the RDF Stream Processing (RSP) community actively promoted the RDF data model and proposed several models and languages for continuously querying and reasoning over RDF streams. Hence, RDF stream processing and reasoning became an important research field. Stream reasoning provides meaning to the heterogeneous, ever-evolving, and often noisy data streams. Achieving such a goal requires a re-evaluation of problem-solving paradigms, as conclusions based on obsolete data need to be revised, new information is constantly arriving, and previous derivations may be reconsidered. Despite the achievements made over the last decade, many challenges remain to overcome. Firstly, no RSP engine can handle complex queries, support temporal reasoning, or integrate background knowledge sources. Furthermore, the issues of managing conflicting rules, reasoning on-the-fly and incrementally, and supporting multi-context reasoning in real-world applications emphasize the necessity of pushing forward in this area. This thesis investigates the area of Stream Reasoning and tackles the trade-off between data throughput and expressiveness, and the contribution is twofold : (i) First, we introduced a multi-agent-based framework for distributed continuous processing. This framework allows the utilization of multiple RSP engines simultaneously, leveraging their respective and complementary strengths. It enables the concurrent or sequential use of these engines to handle complex queries, offering a more versatile and comprehensive solution. (ii) Second, we proposed a novel technique for incremental reasoning explicitly tailored for the practical plain Linear Temporal Logic (LARS) fragment. This technique aims to optimize LARS programs, enhancing their efficiency. In addition, the Assumption Truth Maintenance System (ATMS) capabilities are extended for model updating. This extension facilitates a more comprehensive handling of conflicting information, contributing to the robustness of rule-based reasoning in streaming scenarios. This dual contribution involves the construction of a comprehensive framework. This framework includes a data stream processing layer that integrates multiple RSP engines, enabling the expression of more complex queries by leveraging their benefits and capabilities. Additionally, it incorporates an incremental reasoning layer for rule-based stream reasoning, introducing a novel incremental reasoning technique and extending the Assumption Truth Maintenance System. This contribution significantly advances the theory and practice of expressive stream processing and reasoning. By systematically addressing these challenges, our proposed enhancements pave the way for more sophisticated and adaptable systems in the evolving landscape of stream processing and reasoning. The practical implications of these contributions are demonstrated through an improved experimental evaluation, which has been tested and validated using data obtained from real-world scenarios.