Multiplication de vecteur-matrice à signaux ...
Type de document :
Thèse
Titre :
Multiplication de vecteur-matrice à signaux mixtes dans la mémoire à très faible consommation pour l’apprentissage machine embarqué
Titre en anglais :
Mixed-signal in-memory matrix-vector multiplication for ultra-low power embedded machine learning
Auteur(s) :
Hérissé, Kévin [Auteur]
Institut d’Électronique, de Microélectronique et de Nanotechnologie - UMR 8520 [IEMN]
Microélectronique Silicium - IEMN [MICROELEC SI - IEMN]
Institut d’Électronique, de Microélectronique et de Nanotechnologie - UMR 8520 [IEMN]
Microélectronique Silicium - IEMN [MICROELEC SI - IEMN]
Directeur(s) de thèse :
Andreas Kaiser
Antoine Frappé
Antoine Frappé
Date de soutenance :
2022-12-16
Président du jury :
Ian O'Connor [Président]
Yong Lian [Rapporteur]
Édith Beigné
Sylvain Saïghi
Sylvain Clerc
Andreia Cathelin
Benoît Larras
Yong Lian [Rapporteur]
Édith Beigné
Sylvain Saïghi
Sylvain Clerc
Andreia Cathelin
Benoît Larras
Membre(s) du jury :
Ian O'Connor [Président]
Yong Lian [Rapporteur]
Édith Beigné
Sylvain Saïghi
Sylvain Clerc
Andreia Cathelin
Benoît Larras
Yong Lian [Rapporteur]
Édith Beigné
Sylvain Saïghi
Sylvain Clerc
Andreia Cathelin
Benoît Larras
Organisme de délivrance :
Université de Lille
École doctorale :
École graduée Sciences de l’ingénierie et des systèmes (Lille ; 2021-....)
NNT :
2022ULILN038
Mot(s)-clé(s) :
Hardware
Traitement en mémoire
Traitement en mémoire
Mot(s)-clé(s) en anglais :
Circuit
Neural Networks
Hardware
Artificial Intelligence
Cmos
In-Memory computing
Neural Networks
Hardware
Artificial Intelligence
Cmos
In-Memory computing
Discipline(s) HAL :
Sciences de l'ingénieur [physics]/Micro et nanotechnologies/Microélectronique
Résumé :
Les applications de l'intelligence artificielle embarquée sont nombreuses et couvrent de multiples domaines, tels que l'électronique grand public, la domotique, la santé et l'industrie. Elles nécessitent des puces dédiées ...
Lire la suite >Les applications de l'intelligence artificielle embarquée sont nombreuses et couvrent de multiples domaines, tels que l'électronique grand public, la domotique, la santé et l'industrie. Elles nécessitent des puces dédiées apportant l'intelligence à proximité du capteur tout en maintenant une faible consommation d'énergie. Bien qu'il existe de nombreux types de réseaux neuronaux (Neural Networks - NN), ils reposent tous sur les mêmes calculs de base, à savoir des multiplications matricielles et vectorielles (MMV) composées d'opérations de multiplication et d'accumulation (MAC). L'optimisation de l'efficacité énergétique des opérations MAC est un excellent levier pour réduire la consommation énergétique globale. Dans une architecture Von Neumann classique, la limitation liée à l'accès aux données plafonne l'efficacité à 10 TOPS/W en considérant une consommation d'énergie de 50 fJ/byte pour le déplacement des données. Le traitement en mémoire (In-Memory Computing - IMC) permet de réduire la surcharge énergétique liée à l'accès aux données en les traitant à proximité de l'endroit où elles sont stockées. Cette thèse analyse l'état de l'art des architectures NN et les travaux pour la détection d'activité vocale (Vocal Activity Detection - VAD) et le repérage de mots-clés (Keyword Spotting - KWS), pour montrer que la consommation d'énergie et la précision sont des paramètres plus importants que le débit pour les applications embarquées. En outre, l'analyse de l'état de l'art de l'IMC montre que le temps disponible pour effectuer les opérations du NN peut être avantageusement exploité. Ce travail présente un concept d'IMC analogique basé sur le temps et le courant, où des sources de courant chargent/déchargent une ligne capacitive pendant un temps pondéré par le produit de deux nombres, réalisant ainsi des opérations MAC multi-bits à travers le temps. Une mise en œuvre de l'architecture proposée dans une technologie FDSOI de 28 nm est présentée. Le prototype de circuit intégré intègre 4 neurones avec 100 entrées et des entrées et poids de 5 bits. La structure exécute le MMV multi-bits en utilisant la méthode IMC analogique proposée, basée sur le temps et le courant, avec une latence maximale de 4,5 µs, parfaitement adaptée à la plupart des applications embarquées. L'efficacité énergétique mesurée permet d'envisager une efficacité supérieur à 50 TOPS/W s'il est déployé sur un réseau de 100 neurones.Lire moins >
Lire la suite >Les applications de l'intelligence artificielle embarquée sont nombreuses et couvrent de multiples domaines, tels que l'électronique grand public, la domotique, la santé et l'industrie. Elles nécessitent des puces dédiées apportant l'intelligence à proximité du capteur tout en maintenant une faible consommation d'énergie. Bien qu'il existe de nombreux types de réseaux neuronaux (Neural Networks - NN), ils reposent tous sur les mêmes calculs de base, à savoir des multiplications matricielles et vectorielles (MMV) composées d'opérations de multiplication et d'accumulation (MAC). L'optimisation de l'efficacité énergétique des opérations MAC est un excellent levier pour réduire la consommation énergétique globale. Dans une architecture Von Neumann classique, la limitation liée à l'accès aux données plafonne l'efficacité à 10 TOPS/W en considérant une consommation d'énergie de 50 fJ/byte pour le déplacement des données. Le traitement en mémoire (In-Memory Computing - IMC) permet de réduire la surcharge énergétique liée à l'accès aux données en les traitant à proximité de l'endroit où elles sont stockées. Cette thèse analyse l'état de l'art des architectures NN et les travaux pour la détection d'activité vocale (Vocal Activity Detection - VAD) et le repérage de mots-clés (Keyword Spotting - KWS), pour montrer que la consommation d'énergie et la précision sont des paramètres plus importants que le débit pour les applications embarquées. En outre, l'analyse de l'état de l'art de l'IMC montre que le temps disponible pour effectuer les opérations du NN peut être avantageusement exploité. Ce travail présente un concept d'IMC analogique basé sur le temps et le courant, où des sources de courant chargent/déchargent une ligne capacitive pendant un temps pondéré par le produit de deux nombres, réalisant ainsi des opérations MAC multi-bits à travers le temps. Une mise en œuvre de l'architecture proposée dans une technologie FDSOI de 28 nm est présentée. Le prototype de circuit intégré intègre 4 neurones avec 100 entrées et des entrées et poids de 5 bits. La structure exécute le MMV multi-bits en utilisant la méthode IMC analogique proposée, basée sur le temps et le courant, avec une latence maximale de 4,5 µs, parfaitement adaptée à la plupart des applications embarquées. L'efficacité énergétique mesurée permet d'envisager une efficacité supérieur à 50 TOPS/W s'il est déployé sur un réseau de 100 neurones.Lire moins >
Résumé en anglais : [en]
The applications for embedded artificial intelligence are numerous and cover multiple domains, such as consumer electronics, home automation, health, and industry. They require dedicated chips bringing intelligence close ...
Lire la suite >The applications for embedded artificial intelligence are numerous and cover multiple domains, such as consumer electronics, home automation, health, and industry. They require dedicated chips bringing intelligence close to the sensor while maintaining a low energy consumption. Although many types of neural networks (NN) exist, they all rely on the same basic computations which are Matrix-Vector Multiplications (MVM) composed of Multiply-and-Accumulate (MAC) operations. Optimizing the energy efficiency of MAC operations is a great lever to reduce global power consumption. In a classic Von Neumann architecture, the limitation implied by data access caps the efficiency at 10 TOPS/W considering a 50 fJ/byte energy consumption for data movement. In-memory computing (IMC) helps reduce the energy overhead for accessing data by processing them close to where they are stored. This thesis analyses the state-of-the-art NN architectures and the works for Voice Activity Detection (VAD) and Keyword Spotting (KWS), to show that energy consumption and accuracy are more important parameters than throughput for embedded applications. Furthermore, analysis of the state-of-the-art of IMC shows that the available time to perform NN operations can be advantageously leveraged. This work presents a time- and current-based analog IMC concept, where current sources charge/discharge a capacitive line during a time pondered by the product of two numbers, therefore performing multi-bit MAC operations through time. An implementation of the proposed architecture in a 28 nm FDSOI technology is presented. The integrated circuit prototype integrates 4 neurons with 100 inputs and 5-bit inputs and weights. The structure performs the multi-bit MVM using the proposed time- and current-based analogue IMC method within a maximum latency of 4.5 µs, perfectly suitable with most embedded applications. The measured energy efficiency allows envisioning > 50 TOPS/W if deployed over a 100-neuron array.Lire moins >
Lire la suite >The applications for embedded artificial intelligence are numerous and cover multiple domains, such as consumer electronics, home automation, health, and industry. They require dedicated chips bringing intelligence close to the sensor while maintaining a low energy consumption. Although many types of neural networks (NN) exist, they all rely on the same basic computations which are Matrix-Vector Multiplications (MVM) composed of Multiply-and-Accumulate (MAC) operations. Optimizing the energy efficiency of MAC operations is a great lever to reduce global power consumption. In a classic Von Neumann architecture, the limitation implied by data access caps the efficiency at 10 TOPS/W considering a 50 fJ/byte energy consumption for data movement. In-memory computing (IMC) helps reduce the energy overhead for accessing data by processing them close to where they are stored. This thesis analyses the state-of-the-art NN architectures and the works for Voice Activity Detection (VAD) and Keyword Spotting (KWS), to show that energy consumption and accuracy are more important parameters than throughput for embedded applications. Furthermore, analysis of the state-of-the-art of IMC shows that the available time to perform NN operations can be advantageously leveraged. This work presents a time- and current-based analog IMC concept, where current sources charge/discharge a capacitive line during a time pondered by the product of two numbers, therefore performing multi-bit MAC operations through time. An implementation of the proposed architecture in a 28 nm FDSOI technology is presented. The integrated circuit prototype integrates 4 neurons with 100 inputs and 5-bit inputs and weights. The structure performs the multi-bit MVM using the proposed time- and current-based analogue IMC method within a maximum latency of 4.5 µs, perfectly suitable with most embedded applications. The measured energy efficiency allows envisioning > 50 TOPS/W if deployed over a 100-neuron array.Lire moins >
Langue :
Anglais
Source :
Fichiers
- document
- Accès libre
- Accéder au document
- These_HERISSE_Kevin.pdf
- Accès libre
- Accéder au document