HyperAI
vor 17 Tagen

Neural-getriebene Bildbearbeitung

Pengfei Zhou; Jie Xia; Xiaopeng Peng; Wangbo Zhao; Zilong Ye; Zekai Li; Suorong Yang; Jiadong Pan; Yuanxiang Chen; Ziqiao Wang; Kai Wang; Qian Zheng; Xiaojun Chang; Gang Pan; Shurong Dong; Kaipeng Zhang; Yang You
Neural-getriebene Bildbearbeitung
Abstract

Traditionelle Bildbearbeitung basiert in der Regel auf manuellen Eingaben, was sie arbeitsintensiv und für Menschen mit eingeschränkter Bewegungsfähigkeit oder Sprachkompetenz unzugänglich macht. Indem wir die jüngsten Fortschritte in den Bereichen Brain-Computer Interfaces (BCIs) und generativen Modellen nutzen, schlagen wir LoongX vor, einen bildbasierten Bearbeitungsansatz ohne Hände, der von multimodalen neurophysiologischen Signalen angetrieben wird. LoongX nutzt state-of-the-art Diffusionsmodelle, die auf einem umfassenden Datensatz von 23.928 Bildbearbeitungspaaren trainiert wurden, wobei jedem Paar synchronisierte Elektroenzephalografie (EEG), funktionelle Nahinfrarot-Spektroskopie (fNIRS), Photoplethysmographie (PPG) und Kopfbewegungssignale zugeordnet sind, die die Benutzerabsicht erfassen. Um die Heterogenität dieser Signale effektiv zu bewältigen, integriert LoongX zwei wesentliche Module. Das Cross-Scale State Space (CS3)-Modul kodiert informierende modalspezifische Merkmale. Das Dynamic Gated Fusion (DGF)-Modul aggregiert diese Merkmale in einen einheitlichen latente Raum, der dann durch Feinabstimmung an einem Diffusionstransformer (DiT) mit Bearbeitungssemantik ausgerichtet wird. Zudem verwenden wir kontrastives Lernen zur Vorabstimmung der Encoder, um kognitive Zustände mit semantischen Absichten aus eingebetteter natürlicher Sprache auszurichten. Ausführliche Experimente zeigen, dass LoongX eine Leistung erzielt, die den textbasierten Methoden vergleichbar ist (CLIP-I: 0,6605 gegenüber 0,6558; DINO: 0,4812 gegenüber 0,4636) und diese übertrifft, wenn neuronale Signale mit Sprache kombiniert werden (CLIP-T: 0,2588 gegenüber 0,2549). Diese Ergebnisse unterstreichen das Potenzial neuronal angetriebener generativer Modelle zur Erreichung einer zugänglichen und intuitiven Bildbearbeitung und weisen neue Wege für kognitionsgesteuerte kreative Technologien auf. Die Datensätze und der Code werden veröffentlicht, um zukünftige Arbeiten zu unterstützen und den Fortschritt in diesem aufstrebenden Bereich zu fördern.