L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, MOdĂ©lisation, Validation, Administration des RĂ©seaux
présentent
lâAVIS DE SOUTENANCE de Madame Abir FATHALLAH
AutorisĂ©e Ă prĂ©senter ses travaux en vue de lâobtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă TĂ©lĂ©com SudParis en :
Signal, Images, Automatique et robotique
« Contributions Ă l’indexation de documents historiques arabes Ă l’aide d’approches d’apprentissage profond »
le LUNDI 20 MARS 2023 Ă 10h00
Amphi 3
19 Place Marguerite Perey 91120 Palaiseau
Membres du jury :
Mme Laurence LIKFORMAN-SULEM, MaĂźtresse de ConfĂ©rences, TĂ©lĂ©com Paris, FRANCE – Rapporteure
M. Mohamed Adel ALIMI, Professeur, Ăcole nationale d’ingĂ©nieurs de Sfax, TUNISIE – Rapporteur
Mme Afef KACEM, MaĂźtresse de confĂ©rences, Ăcole supĂ©rieure des Sciences et techniques de Tunis, TUNISIE – Examinatrice
M. Mehdi AMMI, Professeur, UniversitĂ© Paris 8, FRANCE – Examinateur
Mme Najoua ESSOUKRI BEN AMARA, Professeure, Ecole Nationale d’IngĂ©nieurs de Sousse, TUNISIE – Directrice de thĂšse
M. MounĂźm A.  EL YACOUBI, Professeur, TĂ©lĂ©com SudParis, FRANCE – Directeur de thĂšse
Résumé :
Avec les Ă©normes progrĂšs technologiques de ces derniĂšres annĂ©es, la quantitĂ© de documents historiques numĂ©risĂ©s, tant manuscrits qu’imprimĂ©s, a considĂ©rablement augmentĂ©. Il est Ă©vident que les documents historiques numĂ©riques ne sont pas faciles Ă traiter dans leur forme originale, mais ils doivent ĂȘtre transformĂ©s en une forme lisible afin d’ĂȘtre compris automatiquement par les outils de vision par ordinateur. Le repĂ©rage de mots est une tĂąche importante pour comprendre et exploiter le contenu des documents en crĂ©ant des index. Il s’agit d’une technique de recherche d’informations qui vise Ă identifier toutes les occurrences d’un mot de requĂȘte dans un ensemble de documents (par exemple, un livre). Dans la tĂąche de repĂ©rage de mots, l’entrĂ©e est un ensemble de documents non indexĂ©s et la sortie est une liste de mots classĂ©s en fonction de leur similaritĂ© avec le mot de requĂȘte. Cela permet un accĂšs en ligne rapide et facile aux documents du patrimoine culturel et offre d’autres possibilitĂ©s d’Ă©tudier ces ressources. La prĂ©sente thĂšse de doctorat porte sur le problĂšme du repĂ©rage des mots dans les documents historiques. La premiĂšre contribution de ce travail est le dĂ©veloppement d’un espace de reprĂ©sentation d’images de mots basĂ© sur la combinaison de rĂ©seaux convolutifs et de pertes de triplets. Ensuite, les distances de similaritĂ© sont appliquĂ©es pour Ă©tablir une correspondance entre les mots de la requĂȘte et tous les mots prĂ©sents dans les documents historiques. La deuxiĂšme contribution de cette thĂšse prĂ©sente une mĂ©thode amĂ©liorĂ©e de construction d’un espace de reprĂ©sentation pour un modĂšle de repĂ©rage de mots grĂące Ă l’adoption de plusieurs stratĂ©gies d’amĂ©lioration. Ces stratĂ©gies comprennent des Ă©tapes de prĂ©traitement, l’apprentissage par transfert, l’extraction de triplets en ligne et des techniques de sĂ©lection de triplets semi-durs. La troisiĂšme contribution vise Ă amĂ©liorer les performances de repĂ©rage des mots en dĂ©veloppant un modĂšle conditionnel gĂ©nĂ©ratif basĂ© sur un rĂ©seau adversatif pour gĂ©nĂ©rer des images de documents propres Ă partir d’images fortement dĂ©gradĂ©es. Ce modĂšle d’amĂ©lioration traite de diverses tĂąches de dĂ©gradation telles que les filigranes et la dĂ©gradation chimique, dans le but de produire des images de documents hyper-propres et des performances de rĂ©cupĂ©ration de dĂ©tails fins. Dans la derniĂšre contribution, nous proposons l’utilisation d’une architecture de Vision Transformer pour la gĂ©nĂ©ration de reprĂ©sentations mot-image. L’approche utilise la perte de triplets comme critĂšre d’optimisation et incorpore l’apprentissage par transfert de deux domaines distincts pour amĂ©liorer la performance de la reprĂ©sentation mot-image. Toutes ces contributions sont Ă©valuĂ©es sur de nombreuses bases de donnĂ©es publiques qui fournissent diffĂ©rents dĂ©fis de documents historiques. Les rĂ©sultats expĂ©rimentaux obtenus dans la tĂąche de repĂ©rage de mots pour les documents historiques se comparent favorablement Ă de nombreuses mĂ©thodes rĂ©centes de l’Ă©tat de l’art.
Abstract : « Contributions to the indexing of Arabic historical documents using deep learning approaches »
With the enormous technological advances of recent years, the amount of digitized historical documents, both handwritten and printed, has increased. It is well known that digital historical documents are not easily processed in their original form, but they need to be transformed into a readable form in order to be automatically understood by computer vision tools. Word spotting is an important task to understand and exploit document contents by creating indexes. It is an information retrieval technique that aims to identify all occurrences of a query word in a set of documents (for example, a book). In the word spotting task, the input is a set of unindexed documents and the output is a ranked list of words according to their similarity to the query word. This allows quick and easy online access to cultural heritage materials and provides further opportunities to investigate these resources. The present PhD thesis investigates the problem of word spotting in historical documents. The first contribution of this work is the development of embedding space for word image representation based on the combination of convolutional networks and triplet loss. Subsequently, similarity distances are employed to match query words with all words present in the historical documents. The second contribution of this thesis presents an improved method for constructing an embedding space for a word spotting model through the adoption of multiple enhancement strategies. These strategies include preprocessing steps, transfer learning, online triplet mining, and semi-hard triplet selection techniques. The third contribution aims to enhance word spotting performance by developing a conditional generative adversarial network-based model for generating clean document images from highly degraded images. This enhancement model addresses various degradation tasks such as watermarks and chemical degradation, with the goal of producing hyper-clean document images and fine detail recovery performance. In the final contribution, we propose the utilization of a vision transformer architecture for the generation of word-image representations. The approach utilizes triplet loss as the optimization criterion and incorporates transfer learning from two distinct domains to improve the performance of the word-image representation. All these contributions are evaluated on many public databases that provide different challenges of historical documents. The obtained experimental results in the word spotting task for historical documents compare favorably with many recent state-of-the-art methods.