Command Palette
Search for a command to run...
Roman Beliy Amit Zalcher Jonathan Kogman Navve Wasserman Michal Irani

要約
人間の脳波記録(fMRI)から見た画像を再構成することは、非侵襲的に人間の脳の活動を観察する手段を提供する。近年、拡散モデルの進展により、この分野の研究は著しい進歩を遂げたが、現行の手法は実際の視覚画像との忠実度に欠ける傾向がある。本研究では、「Brain-IT」と呼ばれる、脳の構造と機能に着想を得たアプローチを提案する。このアプローチは、脳ボクセル群間の効果的な相互作用を可能にする「脳相互作用トランスフォーマー(Brain Interaction Transformer: BIT)」を用いることで、この課題に取り組む。BITは、すべての被験者に共通する機能的に類似した脳ボクセルクラスタを用い、脳内および脳間の情報統合のための基盤を構成する。すべてのモデル部品がクラスタおよび被験者間で共有されるため、限られたデータ量でも効率的な学習が可能となる。画像再構成を導くために、BITは2種類の補完的な局所的ピクセルレベルの画像特徴を予測する。すなわち、(i) 高レベルの意味的特徴(semantic features)により、拡散モデルが画像の適切な意味内容に収束するように導く。また、(ii) 低レベルの構造的特徴により、画像の粗い構造的配置を初期化し、拡散プロセスの出発点を適切に設定する。BITの設計により、脳ボクセルクラスタから局所的画像特徴への直接的な情報伝達が可能となる。このアプローチにより、視覚的にも、標準的な客観評価指標でも、従来の最先端(SotA)手法を上回る、実際の視覚画像を忠実に再構成する成果が得られた。さらに、新しい被験者から1時間分のfMRIデータのみを用いても、従来の40時間分のデータで学習された手法と同等の性能を達成することができた。