• Accueil
  • Accueil
  • Accueil
  • Accueil

CNRS

Rechercher




Accueil > Productions scientifiques > Thèses SAMOVAR > Thèses 2021

Soutenance de thèse de Mme Marwa ELLEUCH, "Découverte des processus métiers à partir des emails, un premier pas vers la gestion des processus métiers dans des systèmes d’information moins structurés"

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR présentent
l’avis de soutenance de Madame Marwa ELLEUCH

Autorisée à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :
Informatique
« Découverte des processus métiers à partir des emails, un premier pas vers la gestion des processus métiers dans des systèmes d’information moins structurés »

le Lundi 20 décembre 2021 à 14h00
à Télécom SudParis
9 Rue Charles Fourier, 91000 Evry-Courcouronnes

Salle A003 - Visio https://webconf.imt.fr/frontend/wal-02g-btl-mmv

Membres du jury :

M. Walid GAALOUL, Professeur,
Télécom SudParis, FRANCE
Directeur de thèse
M. Hajo A. REIJERS, Professeur,
Universiteit Utrecht, PAYS-BAS
Rapporteur
Mme Daniela GRIGORI, Professeure,
Université Paris-Dauphine, FRANCE
Rapporteure
M. Mohamed QUAFAFOU, Professeur,
Aix-Marseille University, FRANCE
Examinateur
M. Abderrahmane MAARADJI, Maître assistant,
ECE Paris Lyon, FRANCE
Examinateur
Mme Oumaima ALAOUI ISMAILI, Docteure,
Orange Labs, FRANCE
Co-encadrante de thèse
M. Vincent CLAVEAU, Professeur,
IRISA, FRANCE
Examinateur

Résumé :

La fouille de processus vise à analyser les traces d’exécution des systèmes d’information (SI), utilisés dans le cadre des activités métiers, pour découvrir des connaissances sur les processus métiers (PM). D’importants travaux de recherche ont été menés dans ce domaine. Cependant, ils supposent généralement que ces traces d’exécution ont un niveau de structuration élevé. Cela signifie que : (i) ils sont composés d’enregistrements structurés, chacun capturant l’exécution d’une activité, et (ii) une partie des attributs des événements d’exécution (comme le nom de l’activité, l’horodatage) sont explicitement inclus dans ces enregistrements, ce qui facilite leur inférence. Néanmoins, les PM peuvent être entièrement ou partiellement réalisés dans des SI moins structurés générant des traces d’exécution de faible niveau de structuration. Les systèmes de courriels sont largement utilisés pour réaliser de manière collaborative des activités de PM. Cependant, leurs traces d’exécution sont de nature non-structurée de point de vue découverte des PM, ce qui empêche l’application directe des techniques existantes. Pour celles qui découvrent les PM à partir des courriels, elles : (i) nécessitent généralement une intervention humaine, et (ii) se sont limitées à la découverte des PM selon la perspective comportementale. Dans cette thèse, nous proposons de découvrir des fragments de PM à partir des courriels selon leurs perspectives fonctionnelles, données, organisationnelles et comportementales. Nous formalisons d’abord ces perspectives en considérant les spécificités des systèmes de courriels. Nous introduisons la notion de contribution des acteurs à la réalisation des activités pour enrichir les perspectives organisationnelles et comportementales. Nous considérons en outre les entités informationnelles manipulées par les activités de PM pour décrire la perspective des données. Pour automatiser la découverte de l’ensemble des perspectives, nous introduisons une approche complètement non-supervisée. Cette approche transforme principalement les traces non structurées des courriels en un journal d’événements structuré avant de l’analyser pour découvrir les PM selon différentes perspectives. Nous introduisons dans ce contexte un ensemble de solutions algorithmiques pour : (i) l’apprentissage non supervisé des activités basé sur la découverte de motifs fréquents de mots dans les courriels, (ii) la découverte des occurrences des activités dans les emails pour capturer les attributs des événements, (iii) la découverte des actes de parole des expéditeurs pour reconnaître leurs intentions de mentionner les activités dans les emails afin de déduire leurs contributions dans leur réalisation, (iv) le regroupement par chevauchement des activités pour découvrir leurs artefacts manipulés (c.-à-d. les entités informationnelles), et (v) la découverte des contraintes séquentielles entre les types d’événements pour découvrir la perspective comportementale des PM. Notre approche est validée en utilisant des courriels publics d’Enron. Nos résultats sont en outre rendus publics pour assurer la reproductibilité dans le domaine étudié. Nous montrons enfin l’utilité de nos résultats pour améliorer la gestion des PM à travers deux applications : (i) un outil de découverte et de recommandation des connaissances de PM à intégrer dans un système de gestion de courriels, et (ii) l’analyse de données CRM pour l’exploration des raisons de la satisfaction/non-satisfaction des utilisateurs.

Abstract : "Business process discovery from Emails, a first step towards business process management in less structured information systems"

Process discovery aims at analysing the execution logs of information systems (IS), used when performing business activities, for discovering business process (BP) knowledge. Significant research works has been conducted in such area. However, they generally assume that these execution logs are of high or of middle level of maturity w.r.t BP discovery. This means that (i) they are composed of structured records while each one captures evidence of one activity execution, and (ii) a part of events’ attributes (e.g. activity name, timestamp) are explicitly included in these records which facilitates their inference. Nevertheless, BP can be entirely or partially performed through less structured IS generating execution logs of low level of maturity. More precisely, emailing systems are widely used as an alternative tool to collaboratively perform BP tasks. Traditional BP discovery techniques could not be applied or at least not directly applied due to the unstructured nature of email logs data. Recently, there have been several initiatives to extend the scope of BP discovery to consider email logs. However, most of them : (i) mostly require human intervention, and (ii) were limited to BP discovery according to its behavioral perspective. In this thesis, we propose to discover BP fragments from email logs w.r.t their functional, data, organizational and behavioral perspectives. We first formalize these perspectives considering emailing systems specifities. We introduce the notion of actors’ contributions towards performing activities to enrich the organizational and the behavioral perspectives. We additionally consider the informational entities manipulated by BP activities to describe the data perspective. To automate their discovery, we introduce a completely unsupervised approach. This approach mainly transforms the unstructured email log into a structured event log before mining it for discovering BP w.r.t multiple perspectives. We introduce in this context several algorithmic solutions for : (i) unsupervised learning activities based on discovering frequent patterns of words from emails, (ii) discovering activity occurrences in emails for capturing event attributes, (iii) discovering speech acts of activity occurrences for recognizing the sender purposes of including activities in emails, (iv) overlapping clustering of activities to discover their manipulated artifacts (i.e. informational entities), and (v) mining sequencing constraints between event types to discover BP behavioral perspective. We validated our approach using emails from the public dataset Enron to show the effectiveness of the obtained results. We publically provide these results to ensure reproducibility in the studied area. We finally show the usefulness of our results for improving BPM through two potential applications : (i) a BP discovery & recommendation tool to be integrated in emailing systems, and (ii) CRM data analysis for mining reasons of users’ satisfaction/non-satisfaction.