• Accueil
  • Accueil
  • Accueil
  • Accueil

CNRS

Rechercher




Accueil > Productions scientifiques > Thèses SAMOVAR > Thèses 2021

Soutenance de thèse de M. Chao CAO, "Compression d’objets 3D représentés par nuages de points"

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR présentent
l’AVIS DE SOUTENANCE de Monsieur Chao CAO
Autorisé à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :
Signal, Images, Automatique et Robotique
« Compression d’objets 3D représentés par nuages de points »
le mardi 14 décembre 2021 à 14h00
à
Télécom SudParis 9 rue Charles Fourier 91011 Evry-Courcouronnes

Salle C06 - Visio sur https://zoom.us/j/94927579927?pwd=Q2x6QnF1aFRrV1d2Nk5vRjVvS0h3Zz09


Membres du jury :

M. Titus ZAHARIA, Professeur,
Télécom SudParis, FRANCE
Directeur de thèse
M. Marius PREDA, Maître de conférences,
Télécom SudParis, FRANCE
Encadrant de thèse
Mme Lu YU, Full professor,
College of Information Science and Electronic Engineering, CHINE
Rapporteure
M. Marc ANTONINI, Directeur de recherche,
CNRS - I3S, FRANCE
Rapporteur
M. Ralf SCHAEFER, VP Standards R&I,
InterDigital, Inc., FRANCE
Examinateur
M. Livio DE LUCA, Directeur de recherche,
CNRS, FRANCE
Examinateur


Résumé :

Avec la croissance rapide du contenu multimédia, les objets 3D deviennent de plus en plus populaires. Ils sont généralement modélisés sous forme de maillages polygonaux complexes ou de nuages de points 3D denses, offrant des expériences immersives dans différentes applications multimédias industrielles et grand public. La représentation par nuages de points, plus facile à acquérir que les maillages, a suscité ces dernières année un intérêt croissant tant dans le monde académique que commercial. Un nuage de points est par définition un ensemble de points définissant la géométrie de l’objet et les attributs associés (couleurs, textures, les propriétés des matériaux, etc.). Le nombre de points dans un nuage de points peut aller d’un millier, pour représenter des objets relativement simples, jusqu’à des milliards pour représenter de manière réaliste des scènes 3D complexes. Ces énormes quantités de données posent de grands défis liés à la transmission, au traitement et au stockage des nuages de points 3D. Ces dernières années, de nombreux travaux ont été dédiés principalement à la compression de maillages, tandis qu’un nombre plus réduit de techniques s’attaquent à la problématique de compression de nuages de points 3D. L’état de l’art fait ressortir deux grandes familles approches principales : une première purement géométrique, fondée sur une décomposition en octree et une seconde hybride, exploitant à la fois la projection multi-vues de la géométrie et le codage vidéo. La première approche permet de préserver une information de géométrie 3D précise mais contient une faible cohérence temporelle. La seconde permet de supprimer efficacement la redondance temporelle mais est pénalisé par une diminution de la précision géométrique, liée au processus de projection 3D/2D. Ainsi, le compromis entre efficacité de compression et précision des objets reconstruit doit être optimisé. Premièrement, une segmentation adaptative par octree a été proposée pour regrouper les points avec différentes amplitudes de mouvement dans des cubes 3D. Ensuite, une estimation de mouvement est appliquée à ces cubes en utilisant une transformation affine. Des gains en termes de performances de distorsion de débit (RD) ont été observés dans des séquences avec des amplitudes de mouvement plus faibles. Cependant, le coût de construction d’un octree pour le nuage de points dense reste élevé tandis que les structures d’octree résultantes contiennent une mauvaise cohérence temporelle pour les séquences avec des amplitudes de mouvement plus élevées. Une structure anatomique a ensuite été proposée pour modéliser le mouvement de manière intrinsèque. À l’aide d’outils d’estimation de pose 2D, le mouvement est estimé à partir de 14 segments anatomiques à l’aide d’une transformation affine. De plus, nous avons proposé une nouvelle solution pour la prédiction des couleurs et discuté du codage des résidus de la prédiction. Il est montré qu’au lieu de coder des informations de texture redondantes, il est plus intéressant de coder les résidus, ce qui a entraîné une meilleure performance RD. Les différentes approches proposées ont permis d’améliorer les performances des modèles de test V-PCC. Toutefois, la compression temporelle de nuages de points 3D dynamiques reste une tâche complexe et difficile. Ainsi, en raison des limites de la technologie d’acquisition actuelle, les nuages acquis peuvent être bruyants à la fois dans les domaines de la géométrie et des attributs, ce qui rend difficile l’obtention d’une estimation précise du mouvement. Dans les études futures, les technologies utilisées pour les maillages 3D pourraient être exploitées et adaptées au cas des nuages de points non-structurés pour fournir des informations de connectivité cohérentes dans le temps.

Abstract :

With the rapid growth of multimedia content, 3D objects are becoming more and more popular. Most of the time, they are modeled as complex polygonal meshes or dense point clouds, providing immersive experiences in different industrial and consumer multimedia applications. The point cloud, which is easier to acquire than mesh and is widely applicable, has raised many interests in both the academic and commercial worlds. A point cloud is a set of points with different properties such as their geometrical locations and the associated attributes (e.g., color, material properties, etc.). The number of the points within a point cloud can range from a thousand, to constitute simple 3D objects, up to billions, to realistically represent complex 3D scenes. Such huge amounts of data bring great technological challenges in terms of transmission, processing, and storage of point clouds. In recent years, numerous research works focused their efforts on the compression of meshes, while less was addressed for point clouds. We have identified two main approaches in the literature : a purely geometric one based on octree decomposition, and a hybrid one based on both geometry and video coding. The first approach can provide accurate 3D geometry information but contains weak temporal consistency. The second one can efficiently remove the temporal redundancy yet a decrease of geometrical precision can be observed after the projection. Thus, the tradeoff between compression efficiency and accurate prediction needs to be optimized. We focused on exploring the temporal correlations between dynamic dense point clouds. We proposed different approaches to improve the compression performance of the MPEG (Moving Picture Experts Group) V-PCC (Video-based Point Cloud Compression) test model, which provides state-of-the-art compression on dynamic dense point clouds. First, an octree-based adaptive segmentation is proposed to cluster the points with different motion amplitudes into 3D cubes. Then, motion estimation is applied to these cubes using affine transformation. Gains in terms of rate-distortion (RD) performance have been observed in sequences with relatively low motion amplitudes. However, the cost of building an octree for the dense point cloud remains expensive while the resulting octree structures contain poor temporal consistency for the sequences with higher motion amplitudes. An anatomical structure is then proposed to model the motion of the point clouds representing humanoids more inherently. With the help of 2D pose estimation tools, the motion is estimated from 14 anatomical segments using affine transformation. Moreover, we propose a novel solution for color prediction and discuss the residual coding from prediction. It is shown that instead of encoding redundant texture information, it is more valuable to code the residuals, which leads to a better RD performance. Although our contributions have improved the performances of the V-PCC test models, the temporal compression of dynamic point clouds remains a highly challenging task. Due to the limitations of the current acquisition technology, the acquired point clouds can be noisy in both geometry and attribute domains, which makes it challenging to achieve accurate motion estimation. In future studies, the technologies used for 3D meshes may be exploited and adapted to provide temporal-consistent connectivity information between dynamic 3D point clouds.