2ヶ月前

マルチモーダル

マルチタスク学習

アプローチ／フレームワーク

マルチモーダル

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin

概要

視覚的空間的推論は、マルチモーダル大規模言語モデル（MLLM）が物体の性質や空間的関係を理解するための鍵となるが、現行のモデルは3Dに配慮した推論において依然として課題を抱えている。従来のアプローチは、主にRGB入力に深度やセグメンテーションなどの補助モダリティを追加することで認識能力を強化する、あるいは空間的VQAデータセットでの学習と強化学習の適用により推論能力を向上させる、という二つのアプローチに分かれており、これらを独立して扱う傾向にある。本研究では、統合型MLLMが空間的認識能力を内発的に高め、適応的で交互に実行される推論（interleaved reasoning）を通じて、より強固な空間的知能を獲得できるかどうかを検証する。そこで、補助モダリティとして深度とセグメンテーションを活用し、2段階の学習プロセスを経て補助モダリティ生成能力と適応的・交互的推論能力を獲得する統合型MLLM「COOPER」を提案する。COOPERは空間的推論性能において平均で6.91%の向上を達成しつつ、汎用性能を維持している。さらに、補助モダリティ生成に特化して学習されたバージョンでも、距離およびサイズ推定において7.92%の改善が得られ、補助モダリティの生成を学ぶことによって空間的知識が内面化され、空間理解が強化される可能性が示唆された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

2ヶ月前

マルチモーダル

マルチタスク学習

アプローチ／フレームワーク

マルチモーダル

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin

概要

視覚的空間的推論は、マルチモーダル大規模言語モデル（MLLM）が物体の性質や空間的関係を理解するための鍵となるが、現行のモデルは3Dに配慮した推論において依然として課題を抱えている。従来のアプローチは、主にRGB入力に深度やセグメンテーションなどの補助モダリティを追加することで認識能力を強化する、あるいは空間的VQAデータセットでの学習と強化学習の適用により推論能力を向上させる、という二つのアプローチに分かれており、これらを独立して扱う傾向にある。本研究では、統合型MLLMが空間的認識能力を内発的に高め、適応的で交互に実行される推論（interleaved reasoning）を通じて、より強固な空間的知能を獲得できるかどうかを検証する。そこで、補助モダリティとして深度とセグメンテーションを活用し、2段階の学習プロセスを経て補助モダリティ生成能力と適応的・交互的推論能力を獲得する統合型MLLM「COOPER」を提案する。COOPERは空間的推論性能において平均で6.91%の向上を達成しつつ、汎用性能を維持している。さらに、補助モダリティ生成に特化して学習されたバージョンでも、距離およびサイズ推定において7.92%の改善が得られ、補助モダリティの生成を学ぶことによって空間的知識が内面化され、空間理解が強化される可能性が示唆された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています