Codage neuronal
From Wikipedia, the free encyclopedia
Le codage neuronal est l’étude de la manière dont l’information est représentée dans l’activité du système nerveux. Lorsqu’un neurone répond à un stimulus, il émet des potentiels d’action. La question centrale est de savoir quelles caractéristiques de cette activité portent l’information.
Les principales hypothèses portent d'une part sur les caractéristiques du train de pics qui transportent l'information (taux de décharge, codage temporel) et d'autre part sur la manière dont une information est représenté au sein d'une population de neurones, entre codage localisé («neurone grand-mère ») et codage distribué.

Les neurones propagent des signaux à grande vitesse à travers le corps sous la forme d'impulsions électriques appelées potentiels d'action : une brève montée du potentiel électrique du neurone suivie de sa chute génère des pointes de tension (ou trains de pics) qui se déplacent le long de l'axone. En réaction à des stimulus externes (lumière, son, goût, odeur, toucher) les neurones modifient leur activité et déclenchent différentes séquences de potentiels d'action.
Les séquences de potentiels d'action ne sont pas des évènements identiques : leur durée, leur amplitude et leur forme peuvent varier. Comme chaque potentiel d'action dure environ une milliseconde, un train de pics peut être considéré comme une série d'évènements ponctuels séparés par des intervalles de longueur variable[1],[2]. Pour décrire et analyser ces décharges, on fait appel à des méthodes statistiques ainsi qu'à la théorie des probabilités et à la théorie des processus ponctuels stochastiques.
L'étude du codage neuronal opère à deux niveaux complémentaires. Au niveau d'un neurone ou d'un petit groupe de neurones, il s'agit de déterminer quelles caractéristiques du train de pics — fréquence moyenne, instants précis de décharge, phase par rapport à une oscillation de fond, groupements en bouffées — transportent l'information sur un stimulus. Au niveau d'un ensemble de neurones, la question est de savoir comment un contenu mental — un percept, un concept, une intention motrice — est réparti entre les neurones de la population : par l'activation d'une ou quelques cellules dédiées, ou par un patron d'activité distribué sur un grand nombre de neurones.
Avec le développement des techniques d'enregistrement et de décodage en neurosciences comme microélectrodes implantées ou imagerie microscopique par excitation à deux photons les chercheurs parviennent peu à peu à déchiffrer ces deux facettes du code neuronal. Les premières analyses en temps réel ont notamment confirmé le rôle central de l'hippocampe dans la mémoire[3],[4],[5]. Plusieurs projets de décodage cérébral à grande échelle sont aujourd'hui en développement[6],[7].
Hypothèses sur le transport d'information
Une séquence ou un train de pics peut coder des informations selon différents schémas. Les débats sur la nature exacte de ce code restent nombreux dans la communauté neuroscientifique, et plusieurs schémas hypothétiques ont été proposés, dont on retrouve les principaux : codage par taux de décharge, codage temporel, codage par latence (time-to-first-spike), codage par phase, codage par bouffées et codage par population, aussi bien en neurosciences computationelles que dans les travaux sur les réseaux de neurones impulsionnels (spiking neural networks, SNN) utilisés en informatique neuromorphique[8],[9].
On avance que le "taux de déclenchement neuronal" (le nombre moyen de pics par unité de temps) détermine la force motrice, par exemple, l'énergie avec laquelle un muscle innervé est contracté. À l’inverse, on propose que le "code temporel complexe" est basé sur le minutage précis de pics uniques, qui peuvent être verrouillés par un stimulus externe (comme dans le système visuel et auditif) ou être générés intrinsèquement par les circuits neuronaux[10],[11].
La théorie de la neuroélectrodynamique considère tous les schémas de codage comme des épiphénomènes liés aux changements moléculaires, où la distribution spatiale des champs électriques dans les neurones résulte du large spectre électromagnétique des potentiels d'action[12].
Codage par taux de décharge

Le modèle de codage par la fréquence, ou rate coding, suppose que l'information sur un signal est contenue dans la fréquence de déclenchement des pointes. Il est parfois appelé codage de fréquence, bien qu'à proprement parler, la fréquence des événements discrets ne soit pas une fréquence mais un tempo.
Il est apparu après des expériences menées par Edgar Douglas Adrian et Yngve Zotterman en 1926[13]. Dans cette expérience simple, différents poids étaient suspendus à un muscle. Lorsque le poids du stimulus augmentait, le nombre de pics enregistrés à partir des nerfs sensitifs innervant le muscle augmentait également. Les auteurs en ont conclu que les potentiels d'action étaient des événements discrets et que leur rythme, plutôt que des paramètres individuels, constituait la base de la communication neuronale.
Au cours des décennies suivantes, la mesure des taux de tir est devenue un outil standard pour décrire les propriétés de tous les types de neurones, en partie en raison de la facilité relative de mesurer les taux de manière expérimentale. Cependant, cette approche néglige toutes les informations éventuellement contenues dans le timing exact des pics et des intervalles inter-pics ainsi que les paramètres internes de chaque potentiel d'action. Ces dernières années, de plus en plus de preuves expérimentales ont suggéré qu'un concept de taux d'allumage simple basé sur la moyenne temporelle pourrait être trop simpliste pour décrire l'activité cérébrale[1].
Dans les réseaux de neurones impulsionnels artificiels, le codage par taux reste le schéma le plus largement implémenté sur les accélérateurs matériels, en partie parce qu'il est simple à réaliser et robuste au bruit. Les valeurs analogiques d'entrée (par exemple, l'intensité d'un pixel) sont converties en trains de pics dont la fréquence moyenne est proportionnelle à l'intensité, souvent à l'aide d'un processus de Poisson. En contrepartie, ce schéma nécessite généralement de longues fenêtres temporelles d'intégration et un grand nombre de pics, ce qui augmente la latence d'inférence et la consommation énergétique[8],[14].
Codage temporel
Les modèles de code temporel supposent que la synchronisation précise des pointes et des intervalles entre pointes est porteuse d'information[15]. De plus en plus de preuves confirment cette hypothèse[16].
Les modèles de codage du taux suggèrent que les irrégularités du tir neuronal sont du bruit et en font la moyenne. Le codage temporel fournit une autre explication du "bruit", suggérant qu'il code en fait des informations et affecte le traitement neuronal[17]. Pour modéliser cette idée, symboles binaires peut être utilisé pour marquer les pics : 1 pour un pic, 0 pour l'absence de pic. Le codage temporel permet à la séquence 000111000111 de signifier quelque chose de différent de 001100110011, même si le taux de tir moyen est le même pour les deux séquences[18].
Les fonctions du cerveau sont plus précises dans le temps que ne le permet le codage du taux. En outre, les réponses à des stimuli similaires sont suffisamment différentes pour suggérer que les schémas distincts de pics contiennent un volume d'informations plus important que celui qu'il est possible d'inclure dans un code de taux.
La structure temporelle d'un train de pointes évoqué par un stimulus est déterminée à la fois par la dynamique du stimulus et par la nature du processus d'encodage neuronal. Les stimuli qui changent rapidement ont tendance à générer des pointes précisément synchronisées. Le codage temporel utilise des caractéristiques de l'activité de stimulation qui ne peuvent pas être décrites par le taux de tir : le temps jusqu'au premier pic après l'apparition du stimulus, la phase du tir par rapport aux oscillations de fond, les caractéristiques basées sur le second et les plus hauts moments statistiques de la distribution de probabilité d'intervalle, ou les groupes de pics précisément chronométrés (modèles temporels) sont des candidats pour les codes temporels[19].
Codage par latence au premier pic (Time-to-First-Spike)

Le codage par latence au premier pic, aussi appelé time-to-first-spike (TTFS), est une forme particulière de codage temporel dans laquelle l'information est portée par le délai écoulé entre l'apparition du stimulus et l'émission du premier potentiel d'action : plus le stimulus est intense, plus ce délai est court[16]. Ce mode de codage a été observé expérimentalement dans la rétine des mammifères, où les neurones ganglionnaires peuvent transmettre l'essentiel de l'information visuelle dès leur première décharge[20], ainsi que dans les systèmes auditif et somato-sensoriel, ou encore dans les cellules mitrales du bulbe olfactif par rapport au début du cycle de reniflement.
Dans le contexte des réseaux de neurones impulsionnels artificiels, le codage TTFS présente un intérêt majeur sur le plan de l'efficacité : chaque neurone n'émet au plus qu'un seul pic par fenêtre d'inférence, ce qui réduit drastiquement le nombre d'opérations synaptiques et la consommation énergétique par rapport au codage par taux. Des études comparatives ont montré que, sur des tâches de classification d'images, le TTFS peut atteindre une précision similaire à celle du codage par taux, avec une latence de traitement plusieurs fois inférieure[14],[21]. Les principales limites de ce schéma résident dans sa sensibilité aux fluctuations neuronales intrinsèques[22] et dans la difficulté d'entraîner les réseaux en raison de la non-différentiabilité du temps de premier pic, qui impose l'usage de gradients de substitution ou de règles d'apprentissage dédiées.
Codage par phase

Le codage par phase (phase-of-firing coding) encode l'information dans la phase à laquelle un pic est émis par rapport à une oscillation de fond du réseau, telle que les rythmes thêta ou gamma du cerveau. Deux pics émis à des fréquences moyennes identiques peuvent ainsi transmettre des informations différentes selon leur phase respective dans le cycle oscillatoire.
Ce schéma a été mis en évidence expérimentalement dans le système olfactif et dans le cortex visuel[23] et dans l'hippocampe où le phénomène de précession de phase relie la position spatiale d'un animal à la phase de décharge des cellules de lieu dans le rythme thêta. L'un des mécanismes possibles du code de phase est que les pics survenant à des phases spécifiques d'un cycle oscillatoire sont plus efficaces pour dépolariser la neurone post-synaptique[24].
Dans les réseaux de neurones impulsionnels, le codage par phase a été proposé comme alternative au codage par taux afin d'accélérer l'inférence : à taux de décharge égal, la phase permet de transporter plusieurs bits d'information supplémentaires par pic[25]. Des études comparatives ont par ailleurs montré que le codage par phase figure parmi les schémas les plus résistants au bruit d'entrée dans les systèmes neuromorphiques analogiques[21].
Codage par bouffées (burst coding)

Le codage par bouffées repose sur l'observation que de nombreux neurones, notamment dans le thalamus, l'hippocampe et les systèmes auditif et visuel, ne transmettent pas leur information par des pics isolés mais par de brèves rafales de potentiels d'action à intervalles inter-pics très courts[26]. Une bouffée caractérisée par son nombre de pics et son intervalle inter-pic (inter-spike interval, ISI) peut coder simultanément deux dimensions de l'information et s'est révélée plus fiable qu'un pic isolé dans la transmission synaptique[27].
Dans les réseaux de neurones impulsionnels artificiels, le codage par bouffées a été proposé comme compromis entre la robustesse du codage par taux et l'efficacité du codage temporel. Il offre la meilleure efficacité de compression de réseau (par élagage et quantification) et la robustesse globale la plus élevée face aux non-idéalités matérielles sur plateformes neuromorphiques analogiques[21].
Hypothèse de la distribution de la représentation
Au-delà de la manière dont un neurone individuel encode un signal au cours du temps, une question distincte concerne la façon dont l'information est répartie entre les neurones d'une population. Deux grandes doctrines s'opposent historiquement : le codage localisé, selon lequel chaque concept ou percept serait représenté par un neurone unique ou un très petit groupe de neurones dédiés, et le codage distribué, selon lequel l'information émerge de l'activité conjointe de nombreux neurones, chacun participant au codage de multiples contenus mentaux[28],[29].
Codage localisé : la « cellule grand-mère »

L'hypothèse du codage localisé, popularisée sous le nom de cellule grand-mère (grandmother cell) par Jerry Lettvin dans les années 1960, postule qu'un concept donné — par exemple le visage de sa grand-mère — serait reconnu par un unique neurone ou un très petit nombre de neurones dédiés. Cette idée, également appelée « cellule pontificale » (Sherrington), « cellule gnostique » (Konorski) ou « cellule cardinale » (Barlow) dans des formulations voisines, prolongeait la découverte par Hubel et Wiesel des cellules simples et complexes du cortex visuel primaire qui détectent des caractéristiques spécifiques comme l'orientation d'un contour[28].
Des enregistrements chez des patients épileptiques implantés ont mis en évidence des neurones du lobe temporal médian répondant de façon remarquablement sélective à des personnes ou objets familiers, le cas le plus célèbre étant celui d'un neurone d'un patient répondant à diverses images de Jennifer Aniston mais non à d'autres visages[30]. Ces « cellules conceptuelles » répondent de manière invariante à différentes présentations du même concept : photographies sous divers angles, nom écrit, prononciation.
Plusieurs arguments s'opposent toutefois à une interprétation strictement « grand-mère » de ces observations. Quian Quiroga lui-même défend un codage distribué parcimonieux (sparse distributed coding) plutôt qu'une dédicace un-pour-un[31] : un même neurone peut répondre à plusieurs concepts liés (par exemple la tour de Pise et la tour Eiffel) ; le fait même qu'un enregistrement aléatoire trouve une cellule répondant à un concept donné suppose l'existence de milliers de telles cellules ; la capacité du cerveau à représenter un nombre potentiellement illimité de concepts et à les composer entre eux semble difficilement conciliable avec un code strictement localisé.
Codage distribué et vecteurs neuronaux

La doctrine alternative, dite doctrine de la population (population doctrine), considère que les représentations mentales correspondent à des patrons d'activité répartis sur un grand nombre de neurones. Chaque neurone participe à de multiples représentations avec des poids variables, et inversement chaque représentation mobilise de nombreux neurones. L'état instantané d'une population de N neurones est alors décrit comme un point dans un espace vectoriel à N dimensions, et les représentations mentales correspondent à des régions ou trajectoires dans cet espace[29],[32].
Vecteur de population
L'exemple historique de codage vectoriel est celui de la direction d'un mouvement dans le cortex moteur primaire, mis en évidence par Apostolos Georgopoulos dans les années 1980[33]. Chaque neurone présente une courbe de réglage sinusoïdale avec une direction préférée, et décharge d'autant plus fortement que le mouvement effectué s'approche de cette direction préférée. Pris isolément, aucun neurone ne permet de déterminer précisément la direction du mouvement : son activité est ambiguë et bruitée. La direction peut néanmoins être reconstruite avec précision en combinant l'activité de nombreux neurones, chacun « votant » pour sa direction préférée pondérée par son taux de décharge. Le vecteur de population ainsi calculé pointe dans la direction du mouvement réalisé.
Cette notion a trouvé de nombreuses applications. Elle permet notamment de suivre des processus cognitifs qui ne se manifestent pas dans le comportement observable : lors d'une tâche de rotation mentale, Georgopoulos et ses collaborateurs ont montré que le vecteur de population dans le cortex moteur tourne progressivement entre la direction initialement indiquée et la direction finale du mouvement, offrant ainsi une signature neurale directe du calcul mental[34]. Le même principe est utilisé dans les interfaces cerveau-machine modernes, qui reconstruisent les intentions motrices d'un patient paralysé à partir de l'activité simultanée de centaines ou milliers d'électrodes. Des stratégies de codage vectoriel similaires ont été identifiées bien au-delà du cortex moteur des primates : dans l'hippocampe de la chauve-souris, qui encode la direction d'une cible dans l'espace, ou dans le cerveau de la drosophile, qui encode la direction de déplacement.
Codage parcimonieux, dense et factoriel
Le codage distribué peut prendre plusieurs formes selon le nombre de neurones simultanément actifs pour représenter un contenu donné. Un code dense mobilise une large fraction de la population à chaque représentation, alors qu'un code parcimonieux (sparse coding) ne sollicite qu'une petite fraction, chaque neurone étant toutefois impliqué dans de nombreuses représentations différentes[35]. Le codage parcimonieux, intermédiaire entre les extrêmes localisé et dense, offre un compromis entre la capacité de représentation et l'efficacité énergétique ; il est largement documenté dans le cortex visuel, le système olfactif ou le lobe temporal médian.
Dans un code factoriel, différentes dimensions d'un stimulus (par exemple la couleur, la forme et la position d'un objet) sont encodées par des sous-espaces orthogonaux de l'activité de la population, ce qui permet de représenter simultanément un grand nombre de combinaisons d'attributs par superposition de vecteurs, sans interférence entre les dimensions. Cette propriété géométrique est considérée comme l'une des raisons pour lesquelles le cerveau peut former de nouvelles représentations rapidement, simplement en allouant un nouveau vecteur orthogonal aux précédents dans un espace de haute dimension[29].