Nov 24, 2025

Simuler le neurofeedback décodé pour le "corriger"

Brendan Parsons, Ph.D., BCN
Neurosciences, Neurofeedback, Intelligence artificielle

*Nouvelles perspectives en neurosciences* Points clés : • Un nouveau cadre de simulation (DecNefLab) permet aux chercheurs de tester in silico des protocoles de neurofeedback IRMf décodé avant de les appliquer à de vrais participants. • Le cadre montre comment des choix de conception – en particulier la classe alternative du classificateur, l’état de départ de l’apprenant et l’aléa dans la stratégie – peuvent créer des « non-répondants » apparents ou un feedback artificiellement trop positif. • En séparant les états cognitifs latents des signaux cérébraux observables, DecNefLab remet en question l’idée qu’un bon décodage reflète forcément un changement cérébral significatif, et propose une voie vers un neurofeedback plus robuste et interprétable.

Recevez le NeuroBLOG dans votre inbox

L’article d’Olza, Santana et Soto présente DecNefLab, un cadre de simulation modulaire conçu pour étudier le neurofeedback IRMf décodé (DecNef, decoded neurofeedback) comme un problème d’apprentissage automatique plutôt que comme un simple tour de force en neuroimagerie. Il s’agit de nouvelles recherches émergentes avec des idées originales sur la manière dont nous concevons, testons et interprétons les protocoles de neurofeedback, en particulier ceux qui utilisent des décodeurs complexes entrainés sur des données de haute dimension.

Dans le biofeedback classique, les personnes voient ou entendent une représentation en temps réel de leur propre physiologie (par exemple les rythmes ÉEG – ÉEG, electroencephalography, électroencéphalographie – la variabilité de la fréquence cardiaque – HRV, heart rate variability – ou la conductance cutanée) et apprennent, par la pratique et le renforcement, à la modifier dans une direction souhaitée. Le biofeedback est un terme général pour l’utilisation de signaux physiologiques issus du corps ; le neurofeedback est simplement du biofeedback centré sur l’activité du cerveau. Le neurofeedback décodé, ou DecNef, va un cran plus loin : au lieu de renvoyer une simple puissance de bande de fréquences ou l’activation d’une région, le système utilise un décodeur d’apprentissage automatique entrainé sur des données d’IRMf (IRMf, fMRI, imagerie par résonance magnétique fonctionnelle) pour détecter un motif cérébral spécifique et récompense ensuite la personne de manière implicite lorsque son activité cérébrale correspond à ce motif – souvent sans lui dire quel est l’objectif exact.

C’est puissant, mais fragile. Les auteurs soulignent des problèmes de longue date en DecNef : décalage de domaine entre les phases d’entrainement et d’induction ; risque de renforcer le « mauvais » motif cérébral, car les classificateurs sont imparfaits ; et réalité inconfortable que de nombreux participants sont étiquetés comme non-répondants. Plus en profondeur, ils critiquent le « dictum du décodeur » – l’idée que si l’on peut décoder quelque chose à partir de l’activité cérébrale, alors le cerveau le représente forcément de façon fonctionnelle et significative.

DecNefLab offre un moyen d’explorer toutes ces questions en toute sécurité, in silico, en remplaçant le participant humain par un modèle génératif doté de son propre espace « cognitif » latent et de signaux « cérébro-similaires » observables.

Méthodes

DecNefLab repose sur une idée simple mais élégante : au lieu de scanner un être humain, on utilise un modèle génératif à variables latentes comme « participant » artificiel. En interne, ce modèle vit dans un espace latent de faible dimension qui représente des états cognitifs ; en externe, il génère des données observables (par exemple des images ou des motifs IRMf synthétiques) qu’un classificateur peut lire, tout comme un scanner IRMf le ferait dans la réalité.

Les composantes centrales sont :

Un générateur G avec un encodeur et un décodeur. L’espace latent Z (l’espace « cognitif ») est projeté vers un espace de données X (l’espace « cérébro-similaire ») via le décodeur. Ici, les auteurs utilisent un autoencodeur variationnel (VAE, variational autoencoder) entrainé sur la base d’images FASHION-MNIST, mais la même approche pourrait s’appliquer à d’autres modalités.
Un classificateur probabiliste D, entrainé sur des données annotées d’une classe cible et d’une classe alternative (par exemple « T-shirt/top » versus « pantalon » ou « robe »). Cela reflète le pipeline DecNef typique, dans lequel un décodeur IRMf est entrainé à distinguer un motif cérébral cible d’une condition de comparaison.
Une règle d’apprentissage L qui décrit comment le participant artificiel met à jour son état latent au fil du temps, en fonction du feedback.

Le VAE apprend un espace latent bidimensionnel dans lequel des images similaires sont proches les unes des autres. Les auteurs définissent des « prototypes latents » pour chaque classe en moyennant les représentations encodées des exemples annotés. Ces prototypes leur permettent d’initialiser les simulations dans différentes zones de l’espace cognitif et d’examiner de manière systématique comment les conditions de départ influencent l’apprentissage.

Pour le classificateur, ils entrainent un réseau de neurones convolutionnel sur des problèmes binaires : cible (« T-shirt/top ») versus alternative (pantalon ou robe). Le classificateur produit p(y = cible | x), qui est ensuite transformé en signal de feedback.

La stratégie d’apprentissage L est volontairement simple mais « neuro-plausible » dans son esprit. Le prochain état latent de l’agent z_{t+1} est un mélange de son état courant et d’un déplacement exploratoire aléatoire dont la variance diminue lorsque la récompense est élevée et augmente lorsqu’elle est faible. Si le feedback chute brutalement, l’agent « regrette » ce mouvement et revient vers l’état précédent avant de réessayer. Des paramètres représentant la confiance dans le feedback et la réactivité (impulsivité) déterminent l’intensité de ces ajustements.

Les auteurs simulent ensuite de nombreuses sessions DecNef en :

sélectionnant différents états latents initiaux (z0), échantillonnés autour de chaque prototype de classe ;
lançant 10 trajectoires indépendantes à partir de chaque point de départ pour capturer l’effet du hasard ;
comparant un véritable feedback DecNef (issu du classificateur) à une condition contrôle dans laquelle le feedback est aléatoire et sans lien avec l’état de l’agent.

Ce dispositif leur permet de poser la question suivante : comment la conception du classificateur, l’état de départ et l’exploration stochastique façonnent-ils à la fois les trajectoires de feedback et les trajectoires latentes cachées au fil du temps ?

Résultats

Les simulations mettent en lumière plusieurs points subtils mais cliniquement pertinents concernant le neurofeedback décodé.

Premièrement, le choix de la classe alternative s’avère crucial. Lorsque le classificateur est entrainé à distinguer « T-shirt/top » (cible) de « pantalon » (alternatif), le paysage de décision résultant dans l’espace latent est assez permissif : de nombreuses régions de la « variété » du générateur reçoivent une probabilité élevée d’être la cible, même lorsque l’image générée n’est manifestement pas un T-shirt. À l’inverse, lorsque la classe alternative est « robe », le classificateur devient plus conservateur : les probabilités élevées de cible se concentrent dans une région bien plus réduite, et de nombreuses images (incluant chaussures et sacs) reçoivent une faible probabilité d’être un T-shirt. Dans les deux cas, l’agent n’observe pourtant qu’une récompense scalaire, et non la structure du paysage.

Cela conduit au deuxième résultat clé : un feedback élevé ne signifie pas nécessairement que l’agent évoque le motif cible souhaité. Comme le classificateur opère en dehors de sa distribution d’entrainement et qu’il est influencé par la classe alternative choisie, l’agent peut recevoir un renforcement important pour des états cognitifs qui sont loin de la véritable région cible. Autrement dit, DecNef peut encourager un apprentissage « maladapté », dans lequel le système et le participant sont tous deux « satisfaits », alors que la représentation sous-jacente est erronée.

Troisièmement, les conditions initiales et le hasard jouent un rôle majeur dans le fait qu’un agent apparaisse comme « répondant » ou non. Les simulations qui débutent dans des zones à faible récompense ont tendance à explorer largement et finissent parfois par gravir le paysage vers des régions de meilleur feedback, tandis que celles qui commencent déjà dans des zones à forte récompense explorent très peu. Certaines trajectoires montrent une progression régulière du feedback ; d’autres stagnent ou régressent, malgré des paramètres identiques. Le même participant artificiel – même règle d’apprentissage, même générateur – peut donc sembler, selon le point de départ et les fluctuations aléatoires, soit un bon apprenant, soit un non-répondant.

La visualisation des trajectoires latentes le rend particulièrement évident : dans certaines régions, des trajectoires cherchant la récompense s’évasent et s’éloignent du prototype cible, alors même que le feedback augmente. Les conditions contrôle avec feedback aléatoire montrent des probabilités qui reviennent vers le niveau du hasard, confirmant que l’« apprentissage » observé dans les simulations principales dépend bien du lien entre classificateur et générateur, et pas seulement du bruit.

Le message général est que DecNef peut être trop optimiste (renforcer la mauvaise chose) ou trop pessimiste (faire passer un apprenant compétent pour un non-répondant), en raison de choix méthodologiques.

Discussion

Avec un peu de recul, DecNefLab est bien plus qu’un simple modèle ludique. Il constitue un pont conceptuel et pratique entre l’apprentissage automatique, les neurosciences cognitives et la pratique du neurofeedback. En rendant visible la trajectoire cognitive interne, il met en évidence un problème central : en DecNef réel, nous ne voyons jamais l’état latent. Nous ne voyons qu’un proxy – des motifs d’activation IRMf décodés par un classificateur lui-même limité et biaisé.

Les simulations montrent comment trois facteurs interagissent :

la conception du classificateur, en particulier la classe alternative, façonne le paysage de récompense ;
l’état cognitif initial influence l’ampleur et la direction de l’exploration ;
les fluctuations aléatoires dans les mouvements exploratoires peuvent orienter l’apprenant vers, ou au contraire loin de, régions offrant un feedback élevé.

En pratique clinique ou en recherche, ces trois dimensions sont souvent dissimulées derrière des étiquettes simplistes du type « a bien répondu au neurofeedback » ou « n’a pas appris ». DecNefLab invite à une interprétation plus nuancée : de nombreux soi-disant non-répondants ont peut-être simplement été placés dans un paysage défavorable, en partant d’un état peu chanceux, avec un décodeur qui renforce des zones étranges de l’espace représentationnel.

Pour les personnes qui envisagent ou suivent un entrainement en neurofeedback, cela importe, car cela montre que des difficultés d’apprentissage ne sont pas un signe de faiblesse ou d’échec personnel. L’interaction système–personne est complexe, et la conception du protocole peut handicaper certains individus de façon subtile. Repenser la « non-réponse » comme un problème de design, et non de volonté, peut être profondément apaisant – et concrètement, cela incite les cliniciens à ajuster les paramètres plutôt que les attentes.

Pour les professionnels qui orientent des patients vers le neurofeedback, ce travail souligne à quel point les systèmes en boucle fermée peuvent différer entre eux. DecNef utilise un renforcement implicite et des décodeurs de haute dimension ; le neurofeedback ÉEG classique s’appuie plus souvent sur des consignes explicites, des métriques plus simples (comme le rythme sensorimoteur ou la puissance alpha) et une répétition prolongée pour consolider le changement. Pourtant, les mêmes questions de fond se posent : qu’est-ce qui est réellement renforcé ? À quel point la métrique est-elle sensible au bruit, aux artéfacts et au contexte ? Et l’augmentation de cette métrique reflète-t-elle vraiment un état fonctionnel plus sain, ou seulement une façon astucieuse de gagner plus de points à l’écran ?

Pour les praticiens en neurofeedback, les résultats de DecNefLab font écho à des dilemmes cliniques très concrets. Prenons l’exemple d’un entrainement du rythme sensorimoteur (SMR, sensorimotor rhythm, typiquement 12–15 Hz) au site Cz pour soutenir l’inhibition comportementale et stabiliser l’attention. Si le seuil de récompense est trop facile, les clients peuvent apprendre très vite des comportements (ou produire des artéfacts) qui augmentent le SMR sans réelle autorégulation. Si les seuils sont trop stricts, les séances deviennent décourageantes et l’exploration s’effondre. De même, dans des protocoles visant à augmenter l’alpha postérieur (par exemple 8–12 Hz à Pz ou O1/O2) pour réduire l’anxiété et favoriser la relaxation, certains clients commencent avec un alpha chroniquement bas, où le « gigotement » exploratoire de l’état cérébral est à la fois nécessaire et bruyant. D’autres arrivent déjà dans un état de forte alpha avec tendance dissociative, que le système peut facilement renforcer en les laissant « coincés » dans ce mode.

L’apport interprétatif majeur de l’article est de remettre en cause le « dictum du décodeur » : l’idée que si quelque chose peut être décodé à partir de l’activité cérébrale, alors cela est forcément représenté de manière fonctionnelle et causalement pertinente. En pratique, cela signifie qu’il nous faut rester humbles quant à la signification réelle de nos signaux de feedback. Un classificateur parfaitement réglé, avec d’excellents scores de validation croisée, peut malgré tout renforcer des caractéristiques de substitution – l’équivalent neuronal d’un enfant qui apprend que sourire à l’enseignant suffit à obtenir des félicitations, indépendamment de toute compréhension réelle.

Sur le plan méthodologique, DecNefLab suggère un flux de travail plus prudent et itératif : concevoir un protocole, le simuler avec différents « participants » artificiels, puis vérifier si la maximisation de la récompense correspond réellement à un mouvement vers l’état latent souhaité. Sinon, modifier le protocole avant de placer un humain dans le scanner ou sous le bonnet ÉEG. Cette mentalité est particulièrement attrayante dans des contextes coûteux et chronophages comme le DecNef IRMf, mais elle résonne aussi avec le neurofeedback ÉEG, où les ajustements de protocole sont souvent faits de manière informelle, à la volée.

Le message plus large pour les neurosciences est que la compréhension causale exige plus que la décodabilité. Pour affirmer qu’un signal de feedback capte une représentation significative, il faut pouvoir montrer que pousser ce signal vers le haut ou vers le bas modifie de façon fiable le comportement, l’expérience ou la dynamique des réseaux en aval, dans un sens cohérent avec la théorie. Des cadres de simulation comme DecNefLab nous aident en soulevant la question suivante : si l’on câblait le système de cette manière, serions-nous vraiment en train d’apprendre au cerveau ce que nous pensons lui apprendre ?

La perspective de Brendan

En lisant cet article, je pensais sans cesse aux clients qui s’installent devant un écran de neurofeedback, donnent tout ce qu’ils peuvent, et repartent malgré tout avec l’impression d’avoir « raté » l’entrainement. DecNefLab propose un contre-récit très bienveillant : parfois, c’est le paysage lui-même qui les sabote.

Même si ce travail se concentre sur le neurofeedback IRMf décodé, ses leçons se transposent directement à la pratique quotidienne du neurofeedback ÉEG.

D’abord, l’idée que la conception du classificateur façonne le paysage de récompense se traduit très bien dans la manière dont nous définissons les cibles en ÉEG. En DecNef, le choix critique est la classe alternative utilisée pour entrainer le décodeur ; en neurofeedback ÉEG, l’équivalent est la façon dont on définit le « non-cible » : quelles fréquences on inhibe, où l’on place les électrodes, comment on traite les artéfacts, comment on fixe les seuils. Si l’on décide d’entrainer le SMR (12–15 Hz) à Cz chez un enfant avec un TDAH (TDAH, ADHD, trouble du déficit de l’attention avec ou sans hyperactivité), mais qu’il présente en même temps une forte tension musculaire fronto-centrale, le système peut discrètement apprendre que « contracter la mâchoire et le cou » est le chemin le plus rapide vers la récompense. Sur le papier, le SMR augmente ; en pratique, on a renforcé le mauvais état latent. (Pour être clair, les écrans d’entrainement que j’ai conçus et que j’utilise contrôlent ce type de chose, mais ce n’est pas le cas partout !)

Une conclusion très concrète de DecNefLab est qu’il faut penser explicitement en termes d’état cognitif ou fonctionnel sous-jacent que l’on souhaite renforcer, et pas seulement en termes de signature ÉEG. Pour un entrainement SMR visant l’inhibition comportementale et l’immobilité motrice, cela peut signifier combiner une récompense en 12–15 Hz avec une inhibition de l’EMG haute fréquence (par exemple 25–40 Hz) sur les mêmes sites ou des sites adjacents, tout en surveillant la vidéo ou un accéléromètre pour garder un œil sur les artefacts. Pour un entrainement d’alpha (8–12 Hz) destiné à favoriser la relaxation chez des adultes anxieux, cela peut impliquer de placer les capteurs à Pz ou O1/O2, mais aussi de vérifier que l’on ne pousse pas la personne vers un état hypo-excité et dissociatif – ici, coupler la récompense alpha avec un minimum d’engagement bêta, ou avec un entrainement en biofeedback de variabilité cardiaque peut orienter le système vers un état calme, mais présent.

Ensuite, les simulations sur les conditions initiales et l’exploration nous rappellent l’importance de l’état de départ. Dans l’article, les agents qui commencent dans des zones à faible récompense doivent explorer largement pour trouver de meilleures régions ; certains y parviennent, d’autres non. En clinique, une personne qui arrive avec une hyperactivation marquée, beaucoup de haut-bêta et peu d’alpha, ou avec des douleurs chroniques et un système intéroceptif constamment en alerte, commence en quelque sorte dans une région latente hostile. Attendre des courbes d’apprentissage lisses dès la première séance n’est pas réaliste.

Concrètement, cela plaide pour des entrées en matière plus douces. Avant de se lancer dans des protocoles exigeants, il peut être utile de stabiliser la physiologie avec un feedback plus simple et plus « indulgent » : par exemple, un entrainement en biofeedback de variabilité de la fréquence cardiaque pour instaurer une flexibilité autonome de base, ou un entrainement d’amplitude ÉEG plus large, avec des seuils généreux qui récompensent toute diminution du bruit de fond. Une fois que le système a pu « sortir » de la zone la plus hostile du paysage, des protocoles ÉEG plus finement réglés peuvent être introduits.

Troisième leçon : le hasard dans DecNefLab correspond, dans la vie réelle, aux fluctuations désordonnées de l’attention, de l’humeur, du sommeil et du quotidien. Le même protocole peut sembler brillant un lundi et plat le vendredi. La tentation est d’interpréter chaque courte séquence : « ce patient n’apprend pas », « ce protocole ne fonctionne pas ». Le cadre de simulation nous encourage à une vision plus statistique : regarder les motifs sur de nombreuses petites trajectoires plutôt que sur une seule. En pratique, cela signifie évaluer le changement sur plusieurs séances et combiner différents indicateurs – ressentis subjectifs, mesures comportementales et tendances neurophysiologiques – plutôt que de se contenter de voir si la barre à l’écran est montée ou non.

Un autre thème que je retiens de ce travail est l’humilité à propos de la signification de nos signaux de feedback. DecNefLab attaque frontalement le dictum du décodeur ; le neurofeedback ÉEG a sa propre version : si le rapport thêta/bêta se rapproche de la « norme », on suppose que la régulation sous-jacente s’est améliorée. Mais de la même manière que l’agent simulé peut « jouer » avec le décodeur IRMf, un système nerveux ingénieux peut contourner nos seuils ÉEG. C’est l’une des raisons pour lesquelles je suis partisan de l’individualisation des protocoles : utiliser l’ÉEG quantitatif (qEEG, quantitative EEG) lorsque c’est pertinent, mais pas comme une recette rigide ; ajuster les bandes de fréquences et les sites d’électrodes en fonction de l’expérience vécue par la personne ; et accepter de s’éloigner des placements « canoniques » lorsque les données et l’histoire du client pointent vers une autre cible.

Plus largement, des outils comme DecNefLab nous incitent à penser en couches. À la surface : l’affichage, les chiffres, les seuils. En dessous : les motifs d’activité cérébrale (ÉEG, IRMf, etc.). En dessous encore : les états cognitifs et émotionnels latents que ces motifs reflètent de manière imparfaite. Et plus profondément : l’histoire de la personne, ses attentes, son contexte relationnel. Un bon entrainement en neurofeedback tente d’aligner toutes ces couches pour que la récompense soit systématiquement couplée à des états qui sont réellement utiles, significatifs et durables dans la vie du client.

Enfin, j’aime beaucoup l’idée de la simulation comme filet de sécurité. Avant d’engager quelqu’un dans une intervention intensive et coûteuse – qu’il s’agisse d’un DecNef IRMf à haut champ ou d’une longue série de séances de neurofeedback ÉEG – nous pourrions prototyper le protocole dans un modèle, en le « stress-testant » délibérément avec des apprenants « difficiles » et des données bruyantes. Même si les simulations actuelles ne captureront jamais toute la richesse de l’expérience humaine, elles peuvent au moins signaler les protocoles particulièrement susceptibles de renforcer des coins étranges du paysage ou de produire de nombreux non-répondants apparents.

En résumé, cet article renforce une intuition clinique centrale : lorsque le neurofeedback « ne marche pas », la première question ne devrait pas être « qu’est-ce qui ne va pas chez ce client ? », mais plutôt « qu’est-ce qui, dans ce paysage – le signal, les seuils, le contexte – joue contre lui ? ».

Conclusion

DecNefLab propose une nouvelle façon de penser le neurofeedback décodé et, plus largement, tout entrainement en boucle fermée basé sur le cerveau ou le corps. En formalisant DecNef comme un problème d’apprentissage automatique avec un espace latent visible, les auteurs montrent à quel point le feedback peut facilement se découpler de la cible réelle, et comment des choix de conception concernant les classificateurs, les états de départ et les règles d’apprentissage peuvent générer aussi bien de faux succès que de fausses impasses.

Pour les cliniciens comme pour les chercheurs, le message clé est que la qualité du feedback ne se résume pas au rapport signal-bruit ou à la précision de classification ; il s’agit de savoir si la récompense aide réellement le système à se diriger vers des états bénéfiques. Des cadres de simulation comme DecNefLab nous permettent de tester cette question avant le recrutement, d’ajuster les protocoles à la lumière de dynamiques cachées et de développer des interprétations plus bienveillantes de la « non-réponse ».

Pour la pratique quotidienne du neurofeedback, en particulier avec l’ÉEG, les implications sont à la fois sobering et encourageantes. Sobering, car elles révèlent à quel point il est facile de renforcer la mauvaise chose ; encourageantes, car elles suggèrent des moyens concrets d’amélioration – meilleures définitions des cibles, seuils plus nuancés, soutien multimodal, et une attitude ouverte pour réviser nos hypothèses lorsque le paysage se révèle hostile.

Au fond, aligner le renforcement sur des états cérébraux et corporels réellement significatifs est le cœur d’un neurofeedback efficace, et des outils comme DecNefLab nous aident à prendre cet alignement encore plus au sérieux.

Référence

Olza, A., Santana, R., & Soto, D. (2025). DecNefLab: A modular and interpretable simulation framework for decoded neurofeedback. arXiv. https://arxiv.org/abs/2511.14555

Vous voulez recevoir nos Newsletters?

Recevez une fois par mois une synthèse de toutes nos activités

Suivez NeuroLogic sur les réseaux

Linked_in Linked_in Facebook

0 comments

Sign upor login to leave a comment