7ヶ月前

視覚質問応答

アプローチ／フレームワーク

マルチモーダル

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

概要

現在のビジョン・ランゲージモデル（VLMs）は、特に多段階の論理と精密な空間配置が求められる場合に、細かい空間推論に苦戦しています。本研究では、これらの制限を解決するために設計されたビジョン・ランゲージ推論モデル「SpatialReasoner-R1」を導入します。高品質な空間推論の監督データを構築するため、私たちは多様で論理的に一貫した「Long Chain-of-Thought（LongCoT）」推論軌道を生成するマルチモデルモンテカルロ木探索（M3CTS）手法を設計しました。さらに、視覚的一致性、空間的な根拠付け、および論理性に基づいて候補レスポンスを評価する空間報酬メカニズムによってガイドされる「fine-grained Direct Preference Optimization（fDPO）」を提案します。fDPOは、記述的な根拠付けと論理的推論においてセグメントごとの好みの粒度を導入し、空間品質タスクにおいて標準的なDPOに対して平均4.1%の改善を達成し、空間量タスクにおいて9.0%の向上を示しました。fDPOで訓練されたSpatialReasoner-R1は、SPATIALRGPT-Benchにおいて新しい最先端（SoTA）を樹立し、最強のベースラインよりも平均精度で9.8%上回りながら、一般的なビジョン・ランゲージタスクでも競争力のある性能を維持しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

アプローチ／フレームワーク

マルチモーダル

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

概要

現在のビジョン・ランゲージモデル（VLMs）は、特に多段階の論理と精密な空間配置が求められる場合に、細かい空間推論に苦戦しています。本研究では、これらの制限を解決するために設計されたビジョン・ランゲージ推論モデル「SpatialReasoner-R1」を導入します。高品質な空間推論の監督データを構築するため、私たちは多様で論理的に一貫した「Long Chain-of-Thought（LongCoT）」推論軌道を生成するマルチモデルモンテカルロ木探索（M3CTS）手法を設計しました。さらに、視覚的一致性、空間的な根拠付け、および論理性に基づいて候補レスポンスを評価する空間報酬メカニズムによってガイドされる「fine-grained Direct Preference Optimization（fDPO）」を提案します。fDPOは、記述的な根拠付けと論理的推論においてセグメントごとの好みの粒度を導入し、空間品質タスクにおいて標準的なDPOに対して平均4.1%の改善を達成し、空間量タスクにおいて9.0%の向上を示しました。fDPOで訓練されたSpatialReasoner-R1は、SPATIALRGPT-Benchにおいて新しい最先端（SoTA）を樹立し、最強のベースラインよりも平均精度で9.8%上回りながら、一般的なビジョン・ランゲージタスクでも競争力のある性能を維持しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

微細な嗜好最適化がVLMにおける空間推論を改善する | 記事 | HyperAI超神経