HyperAI超神经
17 days ago

神经驱动的图像编辑

Pengfei Zhou; Jie Xia; Xiaopeng Peng; Wangbo Zhao; Zilong Ye; Zekai Li; Suorong Yang; Jiadong Pan; Yuanxiang Chen; Ziqiao Wang; Kai Wang; Qian Zheng; Xiaojun Chang; Gang Pan; Shurong Dong; Kaipeng Zhang; Yang You
神经驱动的图像编辑
摘要

传统的图像编辑通常依赖于手动提示,这使得其劳动强度大且对于运动控制有限或语言能力受限的个人来说难以使用。借助近年来脑机接口(BCIs)和生成模型的进展,我们提出了一种名为LoongX的无手操作图像编辑方法,该方法由多模态神经生理信号驱动。LoongX利用了最先进的扩散模型,这些模型是在包含23,928对图像编辑的数据集上训练的,每对图像编辑都与同步的脑电图(EEG)、功能性近红外光谱(fNIRS)、光电容积脉搏波(PPG)和头部运动信号配对,这些信号能够捕捉用户意图。为了有效应对这些信号的异质性,LoongX整合了两个关键模块。跨尺度状态空间(CS3)模块编码具有信息量的模态特定特征。动态门控融合(DGF)模块进一步将这些特征聚合到一个统一的潜在空间中,并通过在扩散变压器(DiT)上进行微调来与编辑语义对齐。此外,我们使用对比学习预训练编码器,以将认知状态与嵌入自然语言中的语义意图对齐。广泛的实验表明,LoongX在性能上可与文本驱动的方法相媲美(CLIP-I: 0.6605 对比 0.6558;DINO: 0.4812 对比 0.4636),并且当神经信号与语音结合时表现更优(CLIP-T: 0.2588 对比 0.2549)。这些结果突显了神经驱动生成模型在实现易于访问、直观的图像编辑方面的潜力,并为认知驱动的创意技术开辟了新的研究方向。我们将发布数据集和代码以支持未来的研究并促进这一新兴领域的发展。