Command Palette
Search for a command to run...
ニューラル駆動画像編集
ニューラル駆動画像編集
概要
伝統的な画像編集は通常、手動のプロンプトに依存しており、これにより作業が労力集約的となり、運動制御や言語能力が限られている個人には利用しづらいものとなっています。最近の脳-コンピュータインターフェース(BCI)と生成モデルの進歩を活用し、私たちは多様な神経生理信号によって駆動されるハンズフリーの画像編集手法であるLoongXを提案します。LoongXは、23,928組の画像編集ペアと同期された電気頭皮図(EEG)、機能的近赤外線分光法(fNIRS)、光体积変化描記法(PPG)、および頭部動作信号から構成される包括的なデータセットで訓練された最先端の拡散モデルを利用します。これらの信号はユーザーの意図を捉えています。これらの信号の異質性を効果的に解決するために、LoongXは2つの主要なモジュールを統合しています。クロススケール状態空間(CS3)モジュールは情報豊富なモダリティ固有の特徴を符号化します。ダイナミックゲート融合(DGF)モジュールはさらにこれらの特徴を統一された潜在空間に集約し、拡散トランスフォーマー(DiT)での微調整を通じて編集セマンティクスと合わせます。また、コントラスト学習を使用してエンコーダーを事前学習することで、認知状態と埋め込み自然言語からの意味的意図を合わせています。広範な実験結果は、LoongXがテキスト駆動型手法に匹敵する性能(CLIP-I: 0.6605 対 0.6558;DINO: 0.4812 対 0.4636)を達成し、神経信号と音声が組み合わさった場合にそれらを超える性能(CLIP-T: 0.2588 対 0.2549)を示していることを示しています。これらの結果は、神経駆動型生成モデルが直感的かつアクセシブルな画像編集を可能にする可能性を強調し、認知駆動型クリエイティブ技術への新たな方向性を開くものです。データセットとコードは公開され、この新興領域における将来の研究と進歩を支援することになります。