신경망 기반 이미지 편집

전통적인 이미지 편집은 일반적으로 수작업 프롬프트에 의존하여, 이는 노동 집약적이며 제한된 운동 능력이나 언어 능력을 가진 개인들에게 접근이 어려운 문제를 야기합니다. 최근 뇌-컴퓨터 인터페이스(BCI)와 생성 모델의 발전을 활용하여, 우리는 다중모달 신경생리학적 신호로 구동되는 손이 필요 없는 이미지 편집 방법인 LoongX를 제안합니다. LoongX는 23,928개의 이미지 편집 쌍으로 구성된 포괄적인 데이터셋을 통해 훈련된 최신 확산 모델을 사용하며, 각 쌍은 사용자의 의도를 포착하는 동기화된 전두엽파(EEG), 기능적 근적외선 분광법(fNIRS), 광량맥파(PPG), 그리고 머리 움직임 신호와 짝을 이루고 있습니다.다양한 신호의 이질성을 효과적으로 해결하기 위해, LoongX는 두 가지 핵심 모듈을 통합합니다. 크로스 스케일 상태 공간(CS3) 모듈은 정보가 포함된 모달리티 특징을 인코딩합니다. 동적 게이트 융합(DGF) 모듈은 이러한 특징들을 단일 잠재 공간으로 집계하고, 확산 트랜스포머(DiT)를 통해 세부 조정하여 편집 의미론과 일치시킵니다. 또한, 우리는 대조 학습을 사용하여 인코더를 사전 훈련하여 내장된 자연어에서 인식 상태와 의미 의도를 일치시키도록 합니다.범위 넓은 실험 결과는 LoongX가 텍스트 기반 방법과 유사한 성능(CLIP-I: 0.6605 대 0.6558; DINO: 0.4812 대 0.4636)을 달성하며, 뉴럴 신호가 음성과 결합될 때는 이러한 방법들을 능가함(CLIP-T: 0.2588 대 0.2549)을 보여줍니다. 이러한 결과들은 뉴럴 드라이브 생성 모델이 접근 가능하고 직관적인 이미지 편집을 가능하게 하는 잠재력을 강조하며, 인식 기반 창의 기술의 새로운 방향성을 제시합니다. 데이터셋과 코드는 미래 연구를 지원하고 이 신흥 영역에서의 진보를 촉진하기 위해 공개될 예정입니다.