Command Palette
Search for a command to run...
Roman Beliy Amit Zalcher Jonathan Kogman Navve Wasserman Michal Irani

초록
사람이 보는 이미지를 그들의 fMRI 뇌 기록으로 재구성하는 것은 인간 뇌에 대한 비침습적인 관찰 창을 제공한다. 최근 확산 모델의 발전으로 인해 이 분야는 급속한 진전을 이루었으나, 기존의 방법들은 실제 시각된 이미지에 대한 충실도가 떨어지는 경향이 있다. 본 연구에서는 'Brain-IT'라는 뇌를 모방한 접근법을 제안한다. 이는 뇌-보크셀(voxel) 간 기능적으로 유사한 클러스터 간의 효과적인 상호작용을 가능하게 하는 뇌 상호작용 트랜스포머(Brain Interaction Transformer, BIT)를 핵심으로 한다. 이러한 기능적 클러스터는 모든 피험자에게 공통적으로 존재하며, 뇌 내부 및 뇌 간 정보 통합을 위한 기본 단위로 활용된다. 모든 모델 구성 요소는 모든 클러스터와 피험자 간에 공유되므로, 제한된 데이터로도 효율적인 학습이 가능하다. BIT는 이미지 재구성 과정을 안내하기 위해 두 가지 보완적인 국소적 패치 수준의 이미지 특징을 예측한다. (i) 고수준의 의미적 특징은 확산 모델이 이미지의 정확한 의미적 내용으로 향하도록 유도하고, (ii) 저수준의 구조적 특징은 이미지의 대략적인 구조적 배치를 초기화하는 데 도움을 준다. BIT의 설계는 뇌-보크셀 클러스터에서 국소적 이미지 특징으로 정보가 직접 흐르는 구조를 가능하게 한다. 이러한 원리에 기반해, 본 방법은 fMRI 데이터로부터 시각된 이미지를 충실하게 재구성할 뿐만 아니라, 시각적 품질과 기준 객관적 평가 지표 모두에서 기존의 최고 수준(SoTA) 기법을 뛰어넘는 성능을 달성한다. 게다가, 새로운 피험자로부터 단 1시간의 fMRI 데이터만으로도 기존의 40시간 분량의 데이터로 훈련된 기법과 비슷한 결과를 달성할 수 있다.