Kevin HERISSE
Soutenance : 16 Décembre 2022
Thèse de doctorat en Electronique, microélectronique, nanoélectronique et micro-ondes, Université de Lille, ENGSYS Sciences de l’ingénierie et des systèmes,
Jury :
Summary:
Les applications de l’intelligence artificielle embarquée sont nombreuses et couvrent de multiples domaines, tels que l’électronique grand public, la domotique, la santé et l’industrie. Elles nécessitent des puces dédiées apportant l’intelligence à proximité du capteur tout en maintenant une faible consommation d’énergie. Bien qu’il existe de nombreux types de réseaux neuronaux (Neural Networks – NN), ils reposent tous sur les mêmes calculs de base, à savoir des multiplications matricielles et vectorielles (MMV) composées d’opérations de multiplication et d’accumulation (MAC). L’optimisation de l’efficacité énergétique des opérations MAC est un excellent levier pour réduire la consommation énergétique globale. Dans une architecture Von Neumann classique, la limitation liée à l’accès aux données plafonne l’efficacité à 10 TOPS/W en considérant une consommation d’énergie de 50 fJ/byte pour le déplacement des données. Le traitement en mémoire (In-Memory Computing – IMC) permet de réduire la surcharge énergétique liée à l’accès aux données en les traitant à proximité de l’endroit où elles sont stockées. Cette thèse analyse l’état de l’art des architectures NN et les travaux pour la détection d’activité vocale (Vocal Activity Detection – VAD) et le repérage de mots-clés (Keyword Spotting – KWS), pour montrer que la consommation d’énergie et la précision sont des paramètres plus importants que le débit pour les applications embarquées. En outre, l’analyse de l’état de l’art de l’IMC montre que le temps disponible pour effectuer les opérations du NN peut être avantageusement exploité. Ce travail présente un concept d’IMC analogique basé sur le temps et le courant, où des sources de courant chargent/déchargent une ligne capacitive pendant un temps pondéré par le produit de deux nombres, réalisant ainsi des opérations MAC multi-bits à travers le temps. Une mise en oeuvre de l’architecture proposée dans une technologie FDSOI de 28 nm est présentée. Le prototype de circuit intégré intègre 4 neurones avec 100 entrées et des entrées et poids de 5 bits. La structure exécute le MMV multi-bits en utilisant la méthode IMC analogique proposée, basée sur le temps et le courant, avec une latence maximale de 4,5 µs, parfaitement adaptée à la plupart des applications embarquées. L’efficacité énergétique mesurée permet d’envisager une efficacité supérieur à 50 TOPS/W s’il est déployé sur un réseau de 100 neurones.
Abstract:
The applications of embedded artificial intelligence are numerous and cover many fields, such as consumer electronics, home automation, health and industry. They require dedicated chips that bring intelligence close to the sensor while maintaining low power consumption. Although there are many types of Neural Networks (NN), they all rely on the same basic computations, namely matrix and vector multiplications (MMV) composed of multiplication and accumulation operations (MAC). Optimizing the energy efficiency of MAC operations is an excellent lever for reducing overall energy consumption. In a classical Von Neumann architecture, the limitation related to data access caps the efficiency at 10 TOPS/W considering an energy consumption of 50 fJ/byte for data movement. In-Memory Computing (IMC) reduces the energy overhead of data access by processing data close to where it is stored. This thesis analyzes the state of the art of NN architectures and works for Vocal Activity Detection (VAD) and Keyword Spotting (KWS), to show that energy consumption and accuracy are more important parameters than throughput for embedded applications. Furthermore, the analysis of the state of the art of IMC shows that the time available to perform NN operations can be advantageously exploited. This work presents a time- and current-based analog IMC design, where current sources charge/discharge a capacitive line for a time weighted by the product of two numbers, thus performing multi-bit MAC operations through time. An implementation of the proposed architecture in a 28 nm FDSOI technology is presented. The prototype IC integrates 4 neurons with 100 inputs and 5-bit inputs and weights. The structure executes the multi-bit MMV using the proposed analog time and current based IMC method with a maximum latency of 4.5 µs, perfectly suited for most embedded applications. The measured energy efficiency allows to consider an efficiency higher than 50 TOPS/W if it is deployed on a 100 neurons network.