• Accueil
  • Accueil
  • Accueil
  • Accueil

CNRS

Rechercher




Accueil > Productions scientifiques > Thèses SAMOVAR > Thèses 2020

Soutenance de thèse de Monsieur Sébastien HAMIS"Compression de contenus visuels pour transmission mobile sur réseaux de très bas débit "

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR présentent l’AVIS DE SOUTENANCE de Monsieur Sébastien HAMIS
Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :
Signal, Images, Automatique et robotique
« Compression de contenus visuels pour transmission mobile sur réseaux de très bas débit »
le vendredi 6 novembre 2020 à 14h00

à Télécom SudParis, Salle H218 - Bâtiment Etoile
9 Rue Charles Fourier 91000 Evry-Courcouronnes
En complément, voici le lien vers la salle virtuelle de la soutenance https://webconf.imt.fr/frontend/tit-4uj-z62

Membres du jury :

M. Titus ZAHARIA, Professeur,
Télécom SudParis, FRANCE
Directeur de thèse
Mme Amel BENAZZA-BENYAHIA, Professeure des Universités,
Sup’Com École Supérieure des communications de Tunis, TUNISIE
Rapporteur
M. Azeddine BEGHDADI, Professeur,
Université Sorbonne Paris Nord, FRANCE
Rapporteur
Mme Jenny BENOIS-PINEAU, Professeure,
Université Bordeaux 1, FRANCE
Examinatrice
M. Didier NICHOLSON, ,
Ektacom, FRANCE
Examinateur
M. Olivier ROUSSEAU,
Be-Bound, FRANCE
Co-encadrant de thèse

Résumé :

Le domaine de la compression de contenus visuels (image, vidéo, éléments graphiques 2D/3D) a connu, depuis maintenant plus de vingt ans, un essor considérable avec l’émergence notamment au fil des années de nombreuses normes internationales comme JPEG, JPEG2000 pour les images fixes ou les différentes versions de standards MPEG-1/2/4 pour les données vidéo et graphiques. L’apparition des smartphones et l’explosion des applications qui leur sont dédiées a également bénéficié de ces avancées, l’image étant aujourd’hui omniprésente dans un contexte de mobilité/itinérance. Néanmoins, cela nécessite toujours des réseaux fiables et disponibles, offrant un débit suffisant pour la transmission effective de ces données visuelles qui sont intrinsèquement gourmandes en bande passante. Si aujourd’hui les pays développés bénéficient de réseaux mobiles (3G, 4G…) hautement performantes, cela n’est pas le cas d’un certain nombre de régions du monde, en particulier dans les pays émergents, où les communications s’appuient encore sur des réseaux 2G SMS. Transmettre de contenus visuels dans un tel contexte devient un défi ambitieux, qui nécessite la mise en œuvre de nouveaux algorithmes de compression. Le défi à relever consiste à assurer une transmission des images sur une bande passante correspondant à un ensemble relativement réduit (10 à 20) de SMS (140 octets par SMS). Pour répondre à ces contraintes, de multiples pistes de développement ont été envisagées. Après un état de l’art des techniques de compression traditionnelles et de leurs améliorations futures, nous avons finalement orienté nos travaux vers des méthodes de deep learning, visant à réaliser des post-traitements pour améliorer la qualité des contenus compressés. Nos contributions s’articulent autour de la création d’un nouveau schéma de compression, incluant les codecs existants ainsi qu’un panel de briques de post-traitement permettant une meilleure exploitation des contenus fortement compressés. Ces briques sont des réseaux de neurones profonds dédiés, qui réalisent des opérations de super-résolution et/ou de réduction d’artéfacts de compression, spécifiquement entraînés pour répondre aux objectifs ciblés. Ces opérations interviennent du côté du décodeur et peuvent être interprétées comme des algorithmes de reconstruction d’images à partir de versions fortement compressées. Cette approche présente l’avantage de pouvoir s’appuyer des codecs existants, particulièrement légers et peu coûteux en ressources. Dans nos travaux, nous avons retenu le format BPG, qui fait état de l’art dans le domaine, mais d’autre schémas de compression peuvent être également considérés. Concernant le type de réseaux de neurones, nos recherches nous ont conduits vers les réseaux antagonistes génératifs (Generative Adversarials Nets–GAN), qui s‘avèrent particulièrement adaptés pour des objectifs de reconstruction à partir de données incomplètes. Plus précisément, les deux architectures retenues et adaptées à nos objectifs sont les réseaux SRGAN et ESRGAN. L’impact des différents éléments et paramètres impliqués, comme notamment les facteurs de super-résolution utilisés et les fonctions de pertes, sont analysés en détails. Enfin, une dernière contribution concerne l’évaluation expérimentale. Après avoir montré les limitations des métriques objectives, qui peinent à prendre en compte la qualité visuelle de l’image, nous avons mis en place un protocole d’évaluation subjective. Les résultats obtenus en termes de scores MOS (Mean Opinion Score) démontrent pleinement la pertinence des approches de reconstruction proposées. Enfin, nous analysons une ouverture de nos travaux à des cas d’utilisation différents, d’une nature plus grand public. C’est notamment le cas pour le traitement de contenus de grande résolution plus ou moins compressés et même pour l’amélioration de la qualité de vidéos.

Abstract :

The field of visual content compression (image, video, 2D/3D graphics elements) has known spectacular achievements for more than twenty years, with the emergence numerous international standards such as JPEG, JPEG2000 for still image compression, or MPEG-1/2/4 for video and 3D graphics content coding. The apparition of smartphones and of their related applications have also benefited from these advances, the image being today ubiquitous in a context of mobility. Nevertheless, image transmission requires reliable and available networks, since such visual data that are inherently bandwidth-intensive. While developed countries benefit today from high-performance mobile networks (3G, 4G...), this is not the case in a certain number of regions of the world, particularly in emerging countries, where communications still rely on 2G SMS networks. Transmitting visual content in such a context becomes a highly ambitious challenge, requiring the elaboration of new, for very low bitrate compression algorithm. The challenge is to ensure images transmission over a narrow bandwidth corresponding to a relatively small set (10 to 20) of SMS (140 bytes per SMS). To meet such constraints, multiple axes of development have been considered. After a state-of-the-art of traditional image compression techniques, we have oriented our research towards deep learning methods, aiming achieve post-treatments over strongly compressed data in order to improve the quality of the decoded content. Our contributions are structures around the creation of a new compression scheme, including existing codecs and a panel of post-processing bricks aiming at enhancing highly compressed content. Such bricks represent dedicated deep neural networks, which perform super-resolution and/or compression artifact reduction operations, specifically trained to meet the targeted objectives. These operations are carried out on the decoder side and can be interpreted as image reconstruction algorithms from heavily compressed versions. This approach offers the advantage of being able to rely on existing codecs, which are particularly light and resource-efficient. In our work, we have retained the BPG format, which represents the state of art in the field, but other compression schemes can also be considered. Regarding the type of neural networks, we have adopted Generative Adversarials Nets-GAN, which are particularly well-suited for objectives of reconstruction from incomplete data. Specifically, the two architectures retained and adapted to our objectives are the SRGAN and ESRGAN networks. The impact of the various elements and parameters involved, such as the super-resolution factors and the loss functions, are analyzed in detail. A final contribution concerns experimental evaluation performed. After showing the limitations of objective metrics, which fail to take into account the visual quality of the image, we have put in place a subjective evaluation protocol. The results obtained in terms of MOS (Mean Opinion Score) fully demonstrate the relevance of the proposed reconstruction approaches. Finally, we open our work to different use cases, of a more general nature. This is particularly the case for high-resolution image processing and for video compression.