« Agrégation des résultats dans les systèmes de recherche d’information pair-à-pair non structurés »

« Agrégation des résultats dans les systèmes de recherche d’information pair-à-pair non structurés »

Qui ?

La thèse sera soutenue par Rim FEHRI MGHIRBI, doctorant au sein du département INF de Télécom SudParis.
Quand ?

Vendredi 18 janvier 2013 à 9h00.

Où ?

Salle polyvalente, Faculté des Sciences de Tunis (Tunisie).
Jury

Rapporteurs :
Mme Bénédicte LE GRAND, Professeure, Université Paris 1, CRI
Mme Rim FAIZ, Professeure, IHEC Carthage
Examinateurs :
M. Sadok BEN YAHIA, maitre de conférences, Faculté des Sciences de Tunis
Mme Khedija AROUR, maitre assistante, INSAT Tunis (encadrante)
M. Bruno DEFUDE, Professeur, Télécom SudParis, Samovar (co-directeur de thèse)
M. Yahia SLIMANI, Professeur, Faculté des Sciences de Tunis (co-directeur de thèse)

Résumé

« Le Pair-à-Pair s’est imposé ces dernières années comme un modèle permettant le passage à l’échelle d’applications distribuées comme le partage de fichiers, sans avoir besoin de recourir à de larges infrastructures coûteuses et difficiles à mettre en place et administrer. Ce modèle, caractérisé par l’absence de point de contrôle central, a introduit de nouveaux défis liés à l’optimisation du ratio coût de gestion du système relativement aux performances.

Dans le cadre de cette thèse, nous nous intéressons essentiellement à la Recherche d’Information dans les systèmes de Recherche d’Information P2P (RIP2P) et plus précisément au problème d’agrégation des résultats dans de tels systèmes. Nous voulons notamment être capables de fonctionner dans un système où les pairs sont hétérogènes (en taille, en contenu et en modèle de recherche d’informations supporté). Pour résoudre ce défi, l’approche proposée dans cette thèse consiste à étendre les méthodes d’agrégation à base de rang (qui ne nécessitent aucune information globale sur le système) en les améliorant par l’intégration de connaissances permettant de gérer l’hétérogénéité. Une base de connaissances est construite localement à chaque pair à partir d’une analyse formelle des concepts appliquée sur les logs des requêtes et résultats. Cette base donne l’association entre les termes de requêtes et les pairs qui y ont contribué et entre les termes de requêtes et les documents. L’algorithme d’agrégation PBA utilise ces deux informations pour construire une liste agrégée tenant compte de l’hétérogénéité des pairs et des documents. L’évaluation de systèmes de recherche d’information pair-à-pair est une problématique complexe en tant que telle, car d’une part il n’y a pas de benchmark établi dans le domaine et d’autre part les métriques de performances couramment utilisé comme le rappel et la précision ne sont pas suffisantes. Une part importante du travail de cette thèse a donc consisté à la construction de jeux de données (et de requêtes) réalistes ainsi que de méthodes de distribution de ces jeux sur un ensemble de pairs. Un simulateur a ensuite été construit pour valider expérimentalement l’algorithme proposé. De nouvelles métriques ont également été proposées et ajoutées au simulateur.

Les résultats obtenus par simulation ont montré que PBA surpasse les approches à base de rang, surtout dans un contexte d’hétérogénéité des pairs (qui est l’objectif de départ de la thèse). Ce gain est obtenu en utilisant des bases de connaissances construites à partir d’informations purement locales, ce qui permet donc d’en limiter le coût de construction.

Les évolutions des pairs (apparition/disparition de pairs, ajout/suppression de documents) et des besoins des utilisateurs (changement dans les requêtes) peuvent remettre en cause l’intérêt des bases de connaissances pour l’agrégation. C’est pourquoi une méthode de mise à jour des bases de connaissances est proposée. Cette méthode est basée sur l’utilisation de détecteurs qui vont « mesurer » l’écart entre l’état de la base de connaissances d’un pair et l’état du système. Si cet écart est trop important, la base locale est reconstruite. L’intérêt majeur de cette approche est qu’elle garde l’aspect local des décisions (chaque pair décide ou non de faire évoluer sa base indépendamment des autres) et qu’en plus l’évolution ne se fait que s’il y a besoin. Les simulations réalisées nous montrent que les détecteurs remplissent bien leur rôle et que l’évolution des bases locales améliore à la fois les résultats du pair qui a évolué mais aussi les résultats globaux du système. »