L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux

présentent

l’AVIS DE SOUTENANCE de Madame Abir FATHALLAH

Autorisée à présenter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, préparé à Télécom SudParis en :

Signal, Images, Automatique et robotique

« Contributions à l’indexation de documents historiques arabes à l’aide d’approches d’apprentissage profond »

le LUNDI 20 MARS 2023 à 10h00

Amphi 3
19 Place Marguerite Perey 91120 Palaiseau

Membres du jury :

Mme Laurence LIKFORMAN-SULEM, Maîtresse de Conférences, Télécom Paris, FRANCE – Rapporteure
M. Mohamed Adel ALIMI, Professeur, École nationale d’ingénieurs de Sfax, TUNISIE – Rapporteur
Mme Afef KACEM, Maîtresse de conférences, École supérieure des Sciences et techniques de Tunis, TUNISIE – Examinatrice
M. Mehdi AMMI, Professeur, Université Paris 8, FRANCE – Examinateur
Mme Najoua ESSOUKRI BEN AMARA, Professeure, Ecole Nationale d’Ingénieurs de Sousse, TUNISIE – Directrice de thèse
M. Mounîm A. EL YACOUBI, Professeur, Télécom SudParis, FRANCE – Directeur de thèse

Résumé :

Avec les énormes progrès technologiques de ces dernières années, la quantité de documents historiques numérisés, tant manuscrits qu’imprimés, a considérablement augmenté. Il est évident que les documents historiques numériques ne sont pas faciles à traiter dans leur forme originale, mais ils doivent être transformés en une forme lisible afin d’être compris automatiquement par les outils de vision par ordinateur. Le repérage de mots est une tâche importante pour comprendre et exploiter le contenu des documents en créant des index. Il s’agit d’une technique de recherche d’informations qui vise à identifier toutes les occurrences d’un mot de requête dans un ensemble de documents (par exemple, un livre). Dans la tâche de repérage de mots, l’entrée est un ensemble de documents non indexés et la sortie est une liste de mots classés en fonction de leur similarité avec le mot de requête. Cela permet un accès en ligne rapide et facile aux documents du patrimoine culturel et offre d’autres possibilités d’étudier ces ressources. La présente thèse de doctorat porte sur le problème du repérage des mots dans les documents historiques. La première contribution de ce travail est le développement d’un espace de représentation d’images de mots basé sur la combinaison de réseaux convolutifs et de pertes de triplets. Ensuite, les distances de similarité sont appliquées pour établir une correspondance entre les mots de la requête et tous les mots présents dans les documents historiques. La deuxième contribution de cette thèse présente une méthode améliorée de construction d’un espace de représentation pour un modèle de repérage de mots grâce à l’adoption de plusieurs stratégies d’amélioration. Ces stratégies comprennent des étapes de prétraitement, l’apprentissage par transfert, l’extraction de triplets en ligne et des techniques de sélection de triplets semi-durs. La troisième contribution vise à améliorer les performances de repérage des mots en développant un modèle conditionnel génératif basé sur un réseau adversatif pour générer des images de documents propres à partir d’images fortement dégradées. Ce modèle d’amélioration traite de diverses tâches de dégradation telles que les filigranes et la dégradation chimique, dans le but de produire des images de documents hyper-propres et des performances de récupération de détails fins. Dans la dernière contribution, nous proposons l’utilisation d’une architecture de Vision Transformer pour la génération de représentations mot-image. L’approche utilise la perte de triplets comme critère d’optimisation et incorpore l’apprentissage par transfert de deux domaines distincts pour améliorer la performance de la représentation mot-image. Toutes ces contributions sont évaluées sur de nombreuses bases de données publiques qui fournissent différents défis de documents historiques. Les résultats expérimentaux obtenus dans la tâche de repérage de mots pour les documents historiques se comparent favorablement à de nombreuses méthodes récentes de l’état de l’art.

Abstract : « Contributions to the indexing of Arabic historical documents using deep learning approaches »

With the enormous technological advances of recent years, the amount of digitized historical documents, both handwritten and printed, has increased. It is well known that digital historical documents are not easily processed in their original form, but they need to be transformed into a readable form in order to be automatically understood by computer vision tools. Word spotting is an important task to understand and exploit document contents by creating indexes. It is an information retrieval technique that aims to identify all occurrences of a query word in a set of documents (for example, a book). In the word spotting task, the input is a set of unindexed documents and the output is a ranked list of words according to their similarity to the query word. This allows quick and easy online access to cultural heritage materials and provides further opportunities to investigate these resources. The present PhD thesis investigates the problem of word spotting in historical documents. The first contribution of this work is the development of embedding space for word image representation based on the combination of convolutional networks and triplet loss. Subsequently, similarity distances are employed to match query words with all words present in the historical documents. The second contribution of this thesis presents an improved method for constructing an embedding space for a word spotting model through the adoption of multiple enhancement strategies. These strategies include preprocessing steps, transfer learning, online triplet mining, and semi-hard triplet selection techniques. The third contribution aims to enhance word spotting performance by developing a conditional generative adversarial network-based model for generating clean document images from highly degraded images. This enhancement model addresses various degradation tasks such as watermarks and chemical degradation, with the goal of producing hyper-clean document images and fine detail recovery performance. In the final contribution, we propose the utilization of a vision transformer architecture for the generation of word-image representations. The approach utilizes triplet loss as the optimization criterion and incorporates transfer learning from two distinct domains to improve the performance of the word-image representation. All these contributions are evaluated on many public databases that provide different challenges of historical documents. The obtained experimental results in the word spotting task for historical documents compare favorably with many recent state-of-the-art methods.

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Pariset le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux

l’AVIS DE SOUTENANCE de Madame Abir FATHALLAH

Signal, Images, Automatique et robotique

« Contributions à l’indexation de documents historiques arabes à l’aide d’approches d’apprentissage profond »

L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux