Command Palette
Search for a command to run...
JiYuan Wang Chunyu Lin Lei Sun Rongying Liu Lang Nie Mingxing Li Kang Liao Xiangxiang Chu Yao Zhao

要約
事前学習済みのテキストから画像への生成モデル(T2I生成モデル)から得られる視覚的事前知識を活用することで、密な予測(dense prediction)において高い成果が得られている。しかし、密な予測は本質的に画像から画像へのタスクであるため、生成モデルよりも画像編集モデルが、微調整(fine-tuning)の基盤としてより適している可能性がある。この洞察に基づき、本研究では、密な幾何推定における編集モデルと生成モデルの微調整挙動について体系的な分析を行った。その結果、編集モデルは固有の構造的事前知識を備えており、自身の内在的特徴を「精緻化(refining)」することで、生成モデルよりもより安定して収束し、最終的に優れた性能を達成できることを明らかにした。これらの知見をもとに、本研究ではDiffusion Transformer(DiT)アーキテクチャに基づく先進的な編集モデルを、密な幾何推定に初めて適応するフレームワーク「FE2E」を提案する。具体的には、編集モデルを決定論的タスクに適合させるために、元々のフロー・マッチング損失を「一貫性のある速度(consistent velocity)」を目的とする学習目標に再定式化した。また、編集モデルのネイティブなBFloat16形式と、本タスクにおける高精度要件との間の精度の不一致を解消するため、対数量子化(logarithmic quantization)を導入した。さらに、DiTのグローバルアテンション機能を活用することで、1回の順伝播(forward pass)で深度と法線の同時推定をコストフリーで実現し、両者の教師信号が互いに強化し合う仕組みを構築した。訓練データのスケーリングを一切行わずに、FE2Eは複数のデータセットにおいてゼロショット(zero-shot)単眼深度および法線推定において顕著な性能向上を達成した。特にETH3Dデータセットでは、35%以上の性能向上を達成し、100倍のデータで学習されたDepthAnythingシリーズを上回る結果を示した。プロジェクトページは以下のURLからアクセス可能である:https://amap-ml.github.io/FE2E/{here}。