22日前

カメラで考える：カメラ中心の理解と生成のための統合型マルチモーダルモデル

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

要約

カメラ中心の理解と生成は、空間知能の二大基盤であるが、従来はそれぞれ独立して研究されてきた。本研究では、カメラ次元に沿った空間認識を拡張する統合的なカメラ中心マルチモーダルモデル「Puffin」を提案する。Puffinは、言語回帰と拡散ベースの生成を統合することで、任意の視点からシーンの解釈と生成を可能にする。カメラと視覚言語の間のモダリティギャップを埋めるために、カメラを「言語」として扱う新たなアプローチを導入し、「カメラを用いた思考」を実現する。このアプローチにより、幾何学的文脈を跨いで推論する際、空間的に根拠を持つ視覚的ヒントを写真術語と整合させることが可能となる。Puffinは、400万件の視覚・言語・カメラトリプルから構成される大規模データセット「Puffin-4M」を用いて学習されている。本モデルは、グローバルなカメラパラメータとピクセル単位のカメラマップの両方を組み込み、柔軟かつ信頼性の高い空間生成を実現している。実験結果から、Puffinはカメラ中心の生成および理解において、専用モデルを上回る性能を発揮することが明らかになった。インストラクションチューニングを施したことで、Puffinは空間的想像、世界探索、写真撮影のガイダンスといった多様なクロスビュータスクへ汎化可能である。本研究では、コード、モデル、データセットパイプライン、ベンチマークを公開し、マルチモーダル空間知能の研究を前進させる。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

カメラで考える：カメラ中心の理解と生成のための統合型マルチモーダルモデル

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

要約

AI で AI を構築

Hyper Newsletters