You are currently viewing Optimisation dynamique des ressources des réseaux cellulaires basé sur les techniques d’analyses de données et des techniques d’apprentissage automatiques

Optimisation dynamique des ressources des réseaux cellulaires basé sur les techniques d’analyses de données et des techniques d’apprentissage automatiques

AVIS DE SOUTENANCE de Monsieur Seif Eddine HAMMAMI
Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de Télécom SudParis avec l’Université Paris 6 en : Informatique & Réseaux
«Optimisation dynamique des ressources des réseaux cellulaires basé sur les techniques d’analyses de données et des techniques d’apprentissage automatiques»

le 20 septembre 2018 à 14:00 – Salle Amphi 34-Batiment 862
Adresse : CEA Saclay Nano-INNOV, 8 Avenue de la Vauve, 91120 Palaiseau

Membres du jury :

Directeur de thèse : Hossam AFIFI – Professeur HDR

Rapporteurs :

Hacène FOUCHAL Professeur – Université de Reims-Champagne-Ardenne
Mathieu BOUET Directeur d’études – Thalès – France

Examinateurs :

Houda LABIOD Professeure – Télécom ParisTech
Yvon GOURHANT Ingénieur de recherche – Orange Labs
Hassine MOUNGLA Maître de conférences – Université Paris Descartes


Résumé :

Les traces réelles des réseaux cellulaire est la clé de voute de ma thèse de doctorat. En effet, je propose dans cette thèse des nouvelles approches dans l’étude et l’analyse des problématiques des réseaux de télécommunications en utilisant ces traces réelles contrairement aux approches classiques basées sur des jeux de données simulés ou générées par des processus aléatoires. Ces traces cellulaires sont présentes sous la forme de jeux de données de CDR (Call Detail Records ou statistiques d’appels) représentés par des information horodatées sur chaque interaction de l’abonné avec l’infrastructure des réseaux mobile, quelques soient les appels reçus/émis, des SMS ou des sessions d’internet. Vu leur richesse et le fait qu’ils reflètent des cas d’usages réels, les informations massives qui peuvent être extraites et analysées de ces jeux donnés, ont été exploités intensivement dans mes travaux de thèse pour développer de nouveaux algorithmes qui ont pour but de changer littéralement les mécanismes de gestion et d’optimisation dans le cadre de l’usage des ressources réseaux. Outre les informations temporelles, les CDRs contiennent aussi les informations géographiques qui projettent l’emplacement instantané de l’abonné durant ses interactions. En combinant les échelles temporelles et géographiques, nous pouvons déduire les dynamicités spatio-temporelle de l’usage réseaux de chaque abonnée ainsi que les modèles dynamiques de l’utilisation de la bande passante sur les stations de bases.
Les jeux de données des CDR sont généralement des données brutes et qui nécessitent des outils avancés d’analyse de données et d’intelligence artificielle afin d’extraire les informations les plus importantes. Dans ce contexte, on propose dans cette thèse une étude structurée pour analyser des traces réelles de CDRs réels comme les traces du « D4D challenge » contenant les données du réseau cellulaire d’Orange Sénégal et les traces du « Big Data challenge » fournis par l’opérateur Telecom Italia. Notre méthode consiste, en premier lieu, à regrouper intelligemment les séries temporelles journalières de charge sur les stations de bases dans des classes pertinentes. Nous proposons pour ça d’utiliser un algorithme modifié de K-means basé sur la distance DTW (Dynamic Time Warping) qui a été montré plus performante que la distance euclidienne classique. Cet algorithme, nous a permis, de classer les séries temporelles de charge pour chaque station de base dans trois classes principales. Une première classe pour les profils de « Pic de charge matinale », une classe pour les profils de « Charge constante » et une dernière classe pour les « Pic de charge nocturne ». Cette première classification, nous permet de proposer notre algorithme de classification automatique et massive des profiles journalières des stations de bases basé sur la machine d’apprentissage SVM (Support Vector Machine). Cette classification automatique est importante pour les opérateurs de réseaux et peut leur servir à adapter l’allocation de ressource radio selon ces profiles.
Afin de garantir la continuité du service pour les abonnées, il est important d’estimer avec précision la dynamicité de la bande passante sa migration instantanée entre les différents endroits dans le futur. Ceci revient à étudier les déplacements des abonnées, qui reflètent aussi un potentiel déplacement de demande de bande passante, entre les zones classifiées précédemment. On propose pour cet objectif, une nouvelle forme de matrice « Origine-Destination » basée sur les résultats de classification, qui nous permet d’estimer les futurs
taux de déplacement de la demande de bande passante entre les classes de zones. En d’autres termes, elle projette la mobilité de bande passante durant la journée.
Le deuxième chapitre de cette thèse répond à une question importante : Est-t-il possible d’exploiter les traces de CDRs pour implémenter des algorithmes capables de prédire avec précision les futurs taux de charge sur chaque station de base ? Dans la continuité du premier chapitre, nous abordons cette problématique en proposant une étude pour les caractéristiques des séries temporelles de charge journalière et en implémentant un modèle de prédiction basé sur l’algorithme d’apprentissage SVR (Support Vector Regression). Nous fournissons une comparaison des performances avec d’autres algorithmes de prédictions connus qui montrent l’efficacité de notre modèle.
Nous intégrons par la suite les modèles que nous avons proposé dans un outil flexible qui permet l’optimisation dynamique des ressource réseaux basé sur les traces réelles. Nous évaluons notre solution en l’appliquant sur une architecture basée sur un réseau sans fil mesh proposé dans le projet national LCI4D. l’optimisation de ce réseau est faite par un algorithme qui exploite les résultats des modules d’analyse de données. Une deuxième évaluation pour notre outil est proposée et qui consiste à l’appliquer sur une topologie dynamique basé sur des cellules-drones (des drones embarquant des femto-cells). Nous proposons pour ça un algorithme d’apprentissage renforcé multi-agent qui exploite aussi les résultats des modules d’analyse de données pour optimiser dynamiquement et en temps réel cette topologie.
Dans la continuité du contexte d’analyse des traces réelles de CDRs, nous proposons dans un dernier chapitre, un deuxième outil qui sera capable de détecter proactivement les anomalies dans les réseaux cellulaire qui peuvent se produire suite à un pic de consommation brusque ou une chute due à des problèmes techniques. Cet outil est basé sur les algorithmes OCSVM (One-class SVM) et SVR qui permettent de distinguer en temps réel les profile de charge anormale. L’outil est testé en utilisant les traces du « D4D challenge » et « Big challenge» et en le comparant à d’autre technique de détection d’anomalies et les résultats montrent qu’il est plus efficace. Nous validons aussi le modèle pour analyser l’impact des données proliférantes issues des nouvelles applications comme celle de l’e-santé. Notre modèle est capable de détecter les anomalies due à l’injection de ces nouvelles sources de données et qui impactent évidement l’usage normal des réseaux cellulaire.

Abstract:
Mobile phone datasets is the central keystone of my Phd. Where I propse new approaches in the study of networking problems using those real dynamic data rather than the old conventional approaches based on simulations and random inputs. Most of these datasets consist of Call Data Records (CDRs) metadata, i.e. a time-stamped dataset of all interactions between the subscribers of a mobile operator and the network infrastructure during a given period. Given their large size and the fact that these are real-world datasets, information extracted from these datasets have intensively been used in my work to develop new algorithms that aim to revolutionize the infrastructure management mechanisms and optimize the usage of resource. CDR metadata contains also, in addition to temporal information, other information about the geographic scale subscribers’ network usage. Combining the temporal and geographical information certainly helps to infer the spatio-temporal dynamics of subscribers use of the network resource as well as the dynamic patterns of the base-station throughout the day.
The issue with these CDR metadata is that they are provided in a raw format and the most relevant information are hidden within the large scale of datasets. This needs advanced tools, such as data mining technique and machine learning algorithms, to extract the relevant knowledge. In this context, we provide in this thesis a data mining study of a real-world CDRs dataset such as D4D challenge dataset provided by Orange Senegal and the big data challenge dataset provided by Telecom Italia. Our analysis method consists in clustering the base stations daily load time-series into relevant classes. We use for that a modified k-means clustering algorithm based on the dynamic time warping (DTW) distance. This clustering results in dividing the base station load time-series, extracted from the D4D challenge dataset, into three relevant classes. Each class belong to a specific base station load profile, such as a “day-peak load” profile, “Constant load” profile and “Night-peak load” profile. This first analysis phase permits to tag each base station with its corresponding profile class. The profiled data are used then to implement an automatic classification machine learning based on support vector machine (SVM). The classification algorithm allowed us to infer automatically the daily class of each base station time-series contained into the large-scale dataset. These information are important for network operators to propose dynamic algorithms for radio resource allocation that follow the instantaneous load fluctuation.
To enhance the continuity of network services, it is important to estimate with high confidence how the bandwidth demand on a base station at a given time is shared among all the base stations in the following instants. We exploit then the classification of base stations profiles to analyze the mobility of the network bandwidth between areas. We use for this objective a novel form of the “origin-destination” matrix based on the classification. This classified OD matrix provides aggregate information about the mobility of the load usage. In other words, it projects the mobility of the bandwidth between areas.
The second chapter of this thesis respond to the following question: Is it possible to use the CDRs dataset to implement an algorithm able to predict with higher accuracy the future network load? In the continuity of the first chapter, we address this issue on our thesis and we
Commenté [SH1]: DTW provides more accurate similarity measurement for time-series data contrary to other techniques such as the classical Euclidean distance or the coefficient of correlation
provide an analysis to study the characteristics of the base stations load time-series and we propose a prediction model based on support vector regression. Our solution is compared to other prediction techniques and the results proved the high efficiency of the SVR-based prediction model.
We combine the network classification, bandwidth mobility and load prediction algorithms into a global framework that propose a dynamic network resource allocation techniques based on real data analysis. We evaluate the framework in the third chapter where we optimize the planning of a wireless mesh network proposed in the LCI4D project. In this chapter, we propose a MILP algorithm that provide a dynamic and fault-tolerant planning for a wireless mesh network that takes as input the cell load time-series resulting from the machine learning tools presented previously.
We also validate our data analysis framework with an innovative network architecture based on drones-cells. Hence, we propose a dynamic solution for drone-cells networks that exploit real traces of demand profiles, output from the framework, and adapt in real time the deployment of drones-cell according these demands. In this part, we propose to optimize the deployment using the machine learning paradigm instead of classical linear programming models. Our solution is based on a multi-agent reinforcement learning (MARL) approach.
In the continuity of the CDRs dataset analysis and the load prediction, we propose in our thesis a second framework that consists in detecting pro-actively the anomalous load patterns of the network that may occur during mass events or network technical issues. Our anomaly detection framework is based on One-class SVM (OCSVM) and SVR algorithms. It is tested and validated with D4D challenge CDR and Italia telecom datasets. Comparison results shows that our model outperforms other techniques. We use our framework to analyze the impact of the proliferous e-health data generated by the medical smart-phone applications.