Réseau de neurones artificiels sans-multiplication ...
Document type :
Thèse
Title :
Réseau de neurones artificiels sans-multiplication avec calcul dans la mémoire en technologie 28nm CMOS FDSOI pour applications biomédicales embarquées.
English title :
Multiplier-less In-Memory Artificial Neural Network in 28nm CMOS FDSOI technology for Embedded Biomedical Applications.
Author(s) :
Gautier, Antoine [Auteur]
JUNIA [JUNIA]
Microélectronique Silicium - IEMN [MICROELEC SI - IEMN]
Institut d’Électronique, de Microélectronique et de Nanotechnologie - UMR 8520 [IEMN]
JUNIA [JUNIA]
Microélectronique Silicium - IEMN [MICROELEC SI - IEMN]
Institut d’Électronique, de Microélectronique et de Nanotechnologie - UMR 8520 [IEMN]
Thesis director(s) :
Antoine FRAPPE
Defence date :
2024-12-11
Accredited body :
Université de Lille
Doctoral school :
ENGSYS Sciences de l’ingénierie et des systèmes
Keyword(s) :
Intelligence artificielle
Calcul dans la mémoire
Réseaux de Neurones Artificiels
CMOS 28nm FDSOI
Calcul dans la mémoire
Réseaux de Neurones Artificiels
CMOS 28nm FDSOI
English keyword(s) :
Artificial Intelligence
In-Memory Computing
Artificial Neural Networks
CMOS 28nm FDSOI
In-Memory Computing
Artificial Neural Networks
CMOS 28nm FDSOI
HAL domain(s) :
Physique [physics]
Sciences de l'ingénieur [physics]
Sciences de l'ingénieur [physics]
French abstract :
Les techniques d’intelligence artificielle (AI), et plus particulièrement les réseaux de neurones artificiels (ANNs), constituent une tendance forte de l’industrie électronique pour des domaines applications variés tels ...
Show more >Les techniques d’intelligence artificielle (AI), et plus particulièrement les réseaux de neurones artificiels (ANNs), constituent une tendance forte de l’industrie électronique pour des domaines applications variés tels que les appareils connectés, le biomédical ou l’industrie.La grande majorité des ANNs reposent sur des modèles calculatoires et des opérations de multiplication et d’addition ou d’accumulation (MAC), cette thèse se concentre sur les réseaux feed-forward fully connected (FNN) qui sont certainement avec les réseaux convolutifs (CNN) le type de réseau le plus commun. La piste la plus directe et la plus efficace pour réduire le coût d’intégration des ANNs est donc de réduire le coût de ces opérations MACs, la métrique de référence pour l’efficacité énergétique d’un système de calcul est le TOPS/W. Si l’on considère un neurone que l’on peut penser comme une unité de calcul de base équivalente à un nombre défini de MACs, dans notre contexte il se trouve que le coût d’intégration hardware des MACs est dominé par le coût des produits poids features et donc des opérations de multiplications en particulier. Dans cette thèse, les poids de l’ANN sont quantifiés avec une méthode non-uniforme logarithmique ce qui permet de remplacer en pratique l’opération de multiplication par une opération de décalage de bit beaucoup moins gourmande en surface de silicium et de consommation d’énergie avec une dégradation limitée de la performance de classification. De plus, cette approche de quantification permet d’encoder sur 4 bits une donnée avec une résolution équivalente de 8 bits.Au niveau architectural l’efficacité énergétique du neurone est améliorée grâce à l’utilisation d’une architecture non-conventionnelle avec traitement du calcul en mémoire (IMC). Dans une implémentation classique basée sur l’architecture von-Neumann (VN) il est nécessaire de constamment échanger des données entre un tableau mémoire et les éléments de calculs, ces échanges mémoire ont un coût et limitent à la fois l’efficacité énergétique et le temps nécessaire pour réaliser un calcul ou une inférence, à l’inverse une architecture IMC repose sur un schéma exempt de mouvement de données entre la mémoire et les éléments de calcul. Ce mode de calcul permet à l’architecture IMC des gains d’énergie et de temps d’opération pour un même calcul, la contrainte étant d’intégrer les éléments de calculs dans le tableau mémoire au plus près des cellules mémoires (SRAM, DRAM…) sans interfaçage ou avec l’interface la plus limitée possible.Dans l’objectif de réaliser des opérations multi-layers sur une surface limitée et à moindre coût énergétique une approche itérative est implémentée : un layer unique est physiquement implémenté avec chaque élément de calcul lié à quatre différents points mémoires ce qui permet de calculer en boucle sur ce même layer unique jusqu’à quatre layers successifs par l’intermédiaire d’un système combinant logique à trois états et concurrence de données sur des lignes communes.Un FNN de dimensions maximale 32x32x32x32 soit 4 layers successifs de 32 neurones implémenté physiquement sous la forme d’un layer itératif unique de 32 neurones a été conçu en technologie 28nm fully-depleted silicon on insulator (FDSOI) et intégré sur puce. Un layer de test de 2 neurones seulement a aussi été implémenté sur puce afin d’étudier et mesurer la performance d’un neurone unitaire ainsi que les effets de mise à l’échelle pour un réseau de plus grande dimension. Les résultats de simulation donnent une efficacité énergétique du réseau 32x32x32x32 de 26.7 TOPS/W pour une inférence mono-layer et de 22.8 TOPS/W pour une inférence sur 4 layers successifs. Le fonctionnement du réseau a été validé en utilisant trois cas applicatifs différents : l’apnée du sommeil et l’arythmie cardiaque ainsi qu’une classification d’images utilisant la base de données MNIST afin de démontrer la flexibilité applicative et la généricité de la solution.Show less >
Show more >Les techniques d’intelligence artificielle (AI), et plus particulièrement les réseaux de neurones artificiels (ANNs), constituent une tendance forte de l’industrie électronique pour des domaines applications variés tels que les appareils connectés, le biomédical ou l’industrie.La grande majorité des ANNs reposent sur des modèles calculatoires et des opérations de multiplication et d’addition ou d’accumulation (MAC), cette thèse se concentre sur les réseaux feed-forward fully connected (FNN) qui sont certainement avec les réseaux convolutifs (CNN) le type de réseau le plus commun. La piste la plus directe et la plus efficace pour réduire le coût d’intégration des ANNs est donc de réduire le coût de ces opérations MACs, la métrique de référence pour l’efficacité énergétique d’un système de calcul est le TOPS/W. Si l’on considère un neurone que l’on peut penser comme une unité de calcul de base équivalente à un nombre défini de MACs, dans notre contexte il se trouve que le coût d’intégration hardware des MACs est dominé par le coût des produits poids features et donc des opérations de multiplications en particulier. Dans cette thèse, les poids de l’ANN sont quantifiés avec une méthode non-uniforme logarithmique ce qui permet de remplacer en pratique l’opération de multiplication par une opération de décalage de bit beaucoup moins gourmande en surface de silicium et de consommation d’énergie avec une dégradation limitée de la performance de classification. De plus, cette approche de quantification permet d’encoder sur 4 bits une donnée avec une résolution équivalente de 8 bits.Au niveau architectural l’efficacité énergétique du neurone est améliorée grâce à l’utilisation d’une architecture non-conventionnelle avec traitement du calcul en mémoire (IMC). Dans une implémentation classique basée sur l’architecture von-Neumann (VN) il est nécessaire de constamment échanger des données entre un tableau mémoire et les éléments de calculs, ces échanges mémoire ont un coût et limitent à la fois l’efficacité énergétique et le temps nécessaire pour réaliser un calcul ou une inférence, à l’inverse une architecture IMC repose sur un schéma exempt de mouvement de données entre la mémoire et les éléments de calcul. Ce mode de calcul permet à l’architecture IMC des gains d’énergie et de temps d’opération pour un même calcul, la contrainte étant d’intégrer les éléments de calculs dans le tableau mémoire au plus près des cellules mémoires (SRAM, DRAM…) sans interfaçage ou avec l’interface la plus limitée possible.Dans l’objectif de réaliser des opérations multi-layers sur une surface limitée et à moindre coût énergétique une approche itérative est implémentée : un layer unique est physiquement implémenté avec chaque élément de calcul lié à quatre différents points mémoires ce qui permet de calculer en boucle sur ce même layer unique jusqu’à quatre layers successifs par l’intermédiaire d’un système combinant logique à trois états et concurrence de données sur des lignes communes.Un FNN de dimensions maximale 32x32x32x32 soit 4 layers successifs de 32 neurones implémenté physiquement sous la forme d’un layer itératif unique de 32 neurones a été conçu en technologie 28nm fully-depleted silicon on insulator (FDSOI) et intégré sur puce. Un layer de test de 2 neurones seulement a aussi été implémenté sur puce afin d’étudier et mesurer la performance d’un neurone unitaire ainsi que les effets de mise à l’échelle pour un réseau de plus grande dimension. Les résultats de simulation donnent une efficacité énergétique du réseau 32x32x32x32 de 26.7 TOPS/W pour une inférence mono-layer et de 22.8 TOPS/W pour une inférence sur 4 layers successifs. Le fonctionnement du réseau a été validé en utilisant trois cas applicatifs différents : l’apnée du sommeil et l’arythmie cardiaque ainsi qu’une classification d’images utilisant la base de données MNIST afin de démontrer la flexibilité applicative et la généricité de la solution.Show less >
English abstract : [en]
Artificial intelligence (AI) techniques, and more specifically artificial neural networks (ANNs), are a major trend in the electronics industry, with applications ranging from connected devices to biomedical and industrial ...
Show more >Artificial intelligence (AI) techniques, and more specifically artificial neural networks (ANNs), are a major trend in the electronics industry, with applications ranging from connected devices to biomedical and industrial applications. As the complexity and classification performance of ANNs increase drastically, it has become essential to reduce their hardware integration costs, both in terms of power consumption and surface area, in order to facilitate their on-chip integration while guaranteeing optimum classification or detection performance.The vast majority of ANNs are based on computational models and multiplication and addition or accumulation (MAC) operations, and this thesis focuses on fully connected feed-forward networks (FNNs), which, along with convolutional networks (CNNs), are certainly the most common type of network. The most direct and effective way of reducing the cost of integrating ANNs is therefore to reduce the cost of these MAC operations. The reference metric for the energy efficiency of a computing system is the number of tera-operations per second per Watt (TOPS/W). If we consider a neuron, which can be thought of as a basic computing unit equivalent to a defined number of MACs, then in our context the hardware integration cost of the MACs is dominated by the cost of the feature weight products and therefore of the multiplication operations in particular. In this thesis, the ANN weights are quantized using a non-uniform logarithmic method, which in practice replaces the multiplication operation with a bit-shifting operation that requires much less silicon area and power consumption, with limited degradation in classification performance. In addition, this quantization approach enables data to be encoded on 4 bits with an equivalent resolution of 8 bits.Architecturally, the energy efficiency of the neuron is improved by the use of an unconventional architecture with in-memory computation (IMC). In a conventional implementation based on the von-Neumann (VN) architecture, it is necessary to constantly exchange data between a memory array and the computational elements. These memory exchanges have a cost and limit both energy efficiency and the computation or inference frequency of operation. IMC architecture, on the other hand, is based on a scheme in which there is no data movement between the memory and the computing elements. This mode of computation allows the IMC architecture to save energy and operating time for the same computation, the constraint being to integrate the processing elements in the memory array as close as possible to the memory cells (SRAM, DRAM, RRAM, etc.) without interfacing or with the most limited interface possible. In order to achieve multi-layer network inference on a limited surface and at a lower energy cost, an iterative approach is implemented: a single unique layer is physically implemented with each processing element linked to four different memory points, enabling up to four successive layers to be calculated in a loop on the same single layer via a system combining three-state logic and data concurrency on common lines.An FNN of maximum dimensions 32x32x32x32, i.e. 4 successive layers of 32 neurons, physically implemented in the form of a single iterative layer of 32 neurons, was designed in 28nm CMOS FDSOI technology and integrated on chip. A test layer of only 2 neurons was also implemented on-chip in order to study and measure the performance of a single neuron as well as the scaling effects for a larger network. The simulation results give an energy efficiency of the 32x32x32x32 network of 26.7 TOPS/W for single-layer inference and 22.8 TOPS/W for an inference on 4 successive layers. The operation of the network was validated using three different application cases: sleep apnea and cardiac arrhythmia, as well as image classification using the MNIST database in order to demonstrate the application flexibility and genericity of the solution.Show less >
Show more >Artificial intelligence (AI) techniques, and more specifically artificial neural networks (ANNs), are a major trend in the electronics industry, with applications ranging from connected devices to biomedical and industrial applications. As the complexity and classification performance of ANNs increase drastically, it has become essential to reduce their hardware integration costs, both in terms of power consumption and surface area, in order to facilitate their on-chip integration while guaranteeing optimum classification or detection performance.The vast majority of ANNs are based on computational models and multiplication and addition or accumulation (MAC) operations, and this thesis focuses on fully connected feed-forward networks (FNNs), which, along with convolutional networks (CNNs), are certainly the most common type of network. The most direct and effective way of reducing the cost of integrating ANNs is therefore to reduce the cost of these MAC operations. The reference metric for the energy efficiency of a computing system is the number of tera-operations per second per Watt (TOPS/W). If we consider a neuron, which can be thought of as a basic computing unit equivalent to a defined number of MACs, then in our context the hardware integration cost of the MACs is dominated by the cost of the feature weight products and therefore of the multiplication operations in particular. In this thesis, the ANN weights are quantized using a non-uniform logarithmic method, which in practice replaces the multiplication operation with a bit-shifting operation that requires much less silicon area and power consumption, with limited degradation in classification performance. In addition, this quantization approach enables data to be encoded on 4 bits with an equivalent resolution of 8 bits.Architecturally, the energy efficiency of the neuron is improved by the use of an unconventional architecture with in-memory computation (IMC). In a conventional implementation based on the von-Neumann (VN) architecture, it is necessary to constantly exchange data between a memory array and the computational elements. These memory exchanges have a cost and limit both energy efficiency and the computation or inference frequency of operation. IMC architecture, on the other hand, is based on a scheme in which there is no data movement between the memory and the computing elements. This mode of computation allows the IMC architecture to save energy and operating time for the same computation, the constraint being to integrate the processing elements in the memory array as close as possible to the memory cells (SRAM, DRAM, RRAM, etc.) without interfacing or with the most limited interface possible. In order to achieve multi-layer network inference on a limited surface and at a lower energy cost, an iterative approach is implemented: a single unique layer is physically implemented with each processing element linked to four different memory points, enabling up to four successive layers to be calculated in a loop on the same single layer via a system combining three-state logic and data concurrency on common lines.An FNN of maximum dimensions 32x32x32x32, i.e. 4 successive layers of 32 neurons, physically implemented in the form of a single iterative layer of 32 neurons, was designed in 28nm CMOS FDSOI technology and integrated on chip. A test layer of only 2 neurons was also implemented on-chip in order to study and measure the performance of a single neuron as well as the scaling effects for a larger network. The simulation results give an energy efficiency of the 32x32x32x32 network of 26.7 TOPS/W for single-layer inference and 22.8 TOPS/W for an inference on 4 successive layers. The operation of the network was validated using three different application cases: sleep apnea and cardiac arrhythmia, as well as image classification using the MNIST database in order to demonstrate the application flexibility and genericity of the solution.Show less >
Language :
Anglais
Source :