Édition d'images pilotée par les neurones

L'édition d'images traditionnelle repose généralement sur des instructions manuelles, ce qui la rend laborieuse et inaccessibles aux personnes ayant une motricité limitée ou des capacités linguistiques réduites. En exploitant les progrès récents dans les interfaces cerveau-ordinateur (ICOs) et les modèles génératifs, nous proposons LoongX, une approche d'édition d'images sans mains pilotée par des signaux neurophysiologiques multimodaux. LoongX utilise des modèles de diffusion de pointe formés sur un ensemble de données complet comprenant 23 928 paires d'édition d'images, chacune associée à des signaux électroencéphalographiques (EEG), de spectroscopie fonctionnelle par infrarouge proche (fNIRS), de photopléthysmographie (PPG) et de mouvement de la tête synchronisés pour capturer l'intention de l'utilisateur. Pour traiter efficacement la hétérogénéité de ces signaux, LoongX intègre deux modules clés. Le module d'espace d'état à travers les échelles (CS3) encode des caractéristiques spécifiques à chaque modalité informatives. Le module de fusion dynamique avec portes (DGF) agrège ensuite ces caractéristiques dans un espace latent unifié, qui est aligné avec les sémantiques d'édition grâce à un affinage sur un transformateur de diffusion (DiT). De plus, nous préformons les encodeurs en utilisant l'apprentissage par contraste pour aligner les états cognitifs avec les intentions sémantiques issues du langage naturel intégré. Des expériences approfondies montrent que LoongX atteint des performances comparables aux méthodes guidées par le texte (CLIP-I : 0,6605 contre 0,6558 ; DINO : 0,4812 contre 0,4636) et les dépasse lorsque les signaux neuronaux sont combinés avec la parole (CLIP-T : 0,2588 contre 0,2549). Ces résultats soulignent le potentiel des modèles génératifs pilotés par le cerveau pour rendre l'édition d'images accessible et intuitive et ouvrent de nouvelles perspectives pour les technologies créatives pilotées par la cognition. Les ensembles de données et le code seront mis à disposition pour soutenir les travaux futurs et favoriser les progrès dans ce domaine émergent.