Command Palette
Search for a command to run...
Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

要約
カメラ中心の理解と生成は、空間知能の二大基盤であるが、従来はそれぞれ独立して研究されてきた。本研究では、カメラ次元に沿った空間認識を拡張する統合的なカメラ中心マルチモーダルモデル「Puffin」を提案する。Puffinは、言語回帰と拡散ベースの生成を統合することで、任意の視点からシーンの解釈と生成を可能にする。カメラと視覚言語の間のモダリティギャップを埋めるために、カメラを「言語」として扱う新たなアプローチを導入し、「カメラを用いた思考」を実現する。このアプローチにより、幾何学的文脈を跨いで推論する際、空間的に根拠を持つ視覚的ヒントを写真術語と整合させることが可能となる。Puffinは、400万件の視覚・言語・カメラトリプルから構成される大規模データセット「Puffin-4M」を用いて学習されている。本モデルは、グローバルなカメラパラメータとピクセル単位のカメラマップの両方を組み込み、柔軟かつ信頼性の高い空間生成を実現している。実験結果から、Puffinはカメラ中心の生成および理解において、専用モデルを上回る性能を発揮することが明らかになった。インストラクションチューニングを施したことで、Puffinは空間的想像、世界探索、写真撮影のガイダンスといった多様なクロスビュータスクへ汎化可能である。本研究では、コード、モデル、データセットパイプライン、ベンチマークを公開し、マルチモーダル空間知能の研究を前進させる。