L’Ecole doctorale : Ecole Doctorale de l’Institut Polytechnique de Paris
et le Laboratoire de recherche SAMOVAR – Services rĂ©partis, Architectures, MOdĂ©lisation, Validation, Administration des RĂ©seaux
présentent
l’AVIS DE SOUTENANCE de Monsieur Nathan HUBENS
AutorisĂ© Ă prĂ©senter ses travaux en vue de l’obtention du Doctorat de l’Institut Polytechnique de Paris, prĂ©parĂ© Ă TĂ©lĂ©com SudParis en :
Signal, Images, Automatique et robotique
« Compression et accélération de réseaux de neurones profonds par élagage synaptique »
le mercredi 7 décembre 2022 à 14h00
Salle Maquet
31, Boulevard Dolez 7000 Mons – Belgique
ou via le lien teams suivant :Â
Membres du jury :
M. Titus ZAHARIA, Professeur, TĂ©lĂ©com SudParis, FRANCE – CoDirecteur de thèse
M. Bernard GOSSELIN, Professeur, UniversitĂ© de Mons, BELGIQUE – CoDirecteur de thèse
M. Ioan TABUS, Professeur, UniversitĂ© de Tampere, FINLANDE – Rapporteur
M. Bruno GRILHèRES, Docteur, Airbus, FRANCE – Examinateur
M. John LEE, Professeur, UniversitĂ© Catholique de Louvain, BELGIQUE – Rapporteur
Mme VĂ©ronique MOEYAERT, Professeure, UniversitĂ© de Mons, BELGIQUE – Examinatrice
M. Thierry DUTOIT, Professeur, UniversitĂ© de Mons , BELGIQUE – Examinateur
Résumé :
Depuis leur rĂ©surgence en 2012, les rĂ©seaux de neurones profonds sont devenus omniprĂ©sents dans la plupart des disciplines de l’intelligence artificielle, comme la reconnaissance d’images, le traitement de la parole et le traitement du langage naturel. Cependant, au cours des dernières annĂ©es, les rĂ©seaux de neurones sont devenus exponentiellement profonds, faisant intervenir de plus en plus de paramètres. Aujourd’hui, il n’est pas rare de rencontrer des architectures impliquant plusieurs milliards de paramètres, alors qu’elles en contenaient le plus souvent des milliers il y a moins de dix ans. Cette augmentation gĂ©nĂ©ralisĂ©e du nombre de paramètres rend ces grands modèles gourmands en ressources informatiques et essentiellement inefficaces sur le plan Ă©nergĂ©tique. Cela rend les modèles dĂ©ployĂ©s coĂ»teux Ă maintenir, mais aussi leur utilisation dans des environnements limitĂ©s en ressources très difficile. Pour ces raisons, de nombreuses recherches ont Ă©tĂ© menĂ©es pour proposer des techniques permettant de rĂ©duire la quantitĂ© de stockage et de calcul requise par les rĂ©seaux neuronaux. Parmi ces techniques, l’Ă©lagage synaptique, consistant Ă crĂ©er des modèles rĂ©duits, a rĂ©cemment Ă©tĂ© mis en Ă©vidence. Cependant, bien que l’Ă©lagage soit une technique de compression courante, il n’existe actuellement aucune mĂ©thode standard pour mettre en Ĺ“uvre ou Ă©valuer les nouvelles mĂ©thodes, rendant la comparaison avec les recherches prĂ©cĂ©dentes difficile. Notre première contribution concerne donc une description inĂ©dite des techniques d’Ă©lagage, dĂ©veloppĂ©e selon quatre axes, et permettant de dĂ©finir de manière univoque et complète les mĂ©thodes existantes. Ces composantes sont : la granularitĂ©, le contexte, les critères et le programme. Cette nouvelle dĂ©finition du problème de l’Ă©lagage nous permet de le subdiviser en quatre sous-problèmes indĂ©pendants et de mieux dĂ©terminer les axes de recherche potentiels. De plus, les mĂ©thodes d’Ă©lagage en sont encore Ă un stade de dĂ©veloppement prĂ©coce et principalement destinĂ©es aux chercheurs, rendant difficile pour les novices d’appliquer ces techniques. Pour combler cette lacune, nous avons proposĂ© l’outil FasterAI, destinĂ© aux chercheurs, dĂ©sireux de crĂ©er et d’expĂ©rimenter diffĂ©rentes techniques de compression, mais aussi aux nouveaux venus, souhaitant compresser leurs modèles pour des applications concrètes. Cet outil a de plus Ă©tĂ© construit selon les quatre composantes prĂ©cĂ©demment dĂ©finis, permettant une correspondance aisĂ©e entre les idĂ©es de recherche et leur mise en Ĺ“uvre. Nous proposons ensuite quatre contributions thĂ©oriques, chacune visant Ă fournir de nouvelles perspectives et Ă amĂ©liorer les mĂ©thodes actuelles dans chacun des quatre axes de description identifiĂ©s. De plus, ces contributions ont Ă©tĂ© rĂ©alisĂ©es en utilisant l’outil prĂ©cĂ©demment dĂ©veloppĂ©, validant ainsi son utilitĂ© scientifique. Enfin, afin de dĂ©montrer que l’outil dĂ©veloppĂ©, ainsi que les diffĂ©rentes contributions scientifiques proposĂ©es, peuvent ĂŞtre applicables Ă un problème complexe et rĂ©el, nous avons sĂ©lectionnĂ© un cas d’utilisation : la dĂ©tection de la manipulation faciale, Ă©galement appelĂ©e dĂ©tection de DeepFakes. Cette dernière contribution est accompagnĂ©e d’une application de preuve de concept, permettant Ă quiconque de rĂ©aliser la dĂ©tection sur une image ou une vidĂ©o de son choix. L’ère actuelle du Deep Learning a Ă©mergĂ© grâce aux amĂ©liorations considĂ©rables des puissances de calcul et Ă l’accès Ă une grande quantitĂ© de donnĂ©es. Cependant, depuis le dĂ©clin de la loi de Moore, les experts suggèrent que nous pourrions observer un changement dans la façon dont nous concevons les ressources de calcul, conduisant ainsi Ă une nouvelle ère de collaboration entre les communautĂ©s du logiciel, du matĂ©riel et de l’apprentissage automatique. Cette nouvelle quĂŞte de plus d’efficacitĂ© passera donc indĂ©niablement par les diffĂ©rentes techniques de compression des rĂ©seaux neuronaux, et notamment les techniques d’Ă©lagage.
Abstract : « Towards Lighter and Faster Deep Neural Networks with Parameter Pruning »
Since their resurgence in 2012, Deep Neural Networks have become ubiquitous in most disciplines of Artificial Intelligence, such as image recognition, speech processing, and Natural Language Processing. However, over the last few years, neural networks have grown exponentially deeper, involving more and more parameters. Nowadays, it is not unusual to encounter architectures involving several billions of parameters, while they mostly contained thousands less than ten years ago. This generalized increase in the number of parameters makes such large models compute-intensive and essentially energy inefficient. This makes deployed models costly to maintain but also their use in resource-constrained environments very challenging. For these reasons, much research has been conducted to provide techniques reducing the amount of storage and computing required by neural networks. Among those techniques, neural network pruning, consisting in creating sparsely connected models, has been recently at the forefront of research. However, although pruning is a prevalent compression technique, there is currently no standard way of implementing or evaluating novel pruning techniques, making the comparison with previous research challenging. Our first contribution thus concerns a novel description of pruning techniques, developed according to four axes, and allowing us to unequivocally and completely define currently existing pruning techniques. Those components are: the granularity, the context, the criteria, and the schedule. Defining the pruning problem according to those components allows us to subdivide the problem into four mostly independent subproblems and also to better determine potential research lines. Moreover, pruning methods are still in an early development stage, and primarily designed for the research community. Indeed, most pruning works are usually implemented in a self-contained and sophisticated way, making it troublesome for non-researchers to apply such techniques without having to learn all the intricacies of the field. To fill this gap, we proposed FasterAI toolbox, intended to be helpful to researchers, eager to create and experiment with different compression techniques, but also to newcomers, that desire to compress their neural network for concrete applications. In particular, the sparsification capabilities of FasterAI have been built according to the previously defined pruning components, allowing for a seamless mapping between research ideas and their implementation. We then propose four theoretical contributions, each one aiming at providing new insights and improving on state-of-the-art methods in each of the four identified description axes. Also, those contributions have been realized by using the previously developed toolbox, thus validating its scientific utility. Finally, to validate the applicative character of the pruning technique, we have selected a use case: the detection of facial manipulation, also called DeepFakes Detection. The goal is to demonstrate that the developed tool, as well as the different proposed scientific contributions, can be applicable to a complex and actual problem. This last contribution is accompanied by a proof-of-concept application, providing DeepFake detection capabilities in a web-based environment, thus allowing anyone to perform detection on an image or video of their choice. This Deep Learning era has emerged thanks to the considerable improvements in high-performance hardware and access to a large amount of data. However, since the decline of Moore’s Law, experts are suggesting that we might observe a shift in how we conceptualize the hardware, by going from task-agnostic to domain-specialized computations, thus leading to a new era of collaboration between software, hardware, and machine learning communities. This new quest for more efficiency will thus undeniably go through neural network compression techniques, and particularly sparse computations.