8ヶ月前

マルチモーダル

視覚質問応答

Penghao Wu Saining Xie

概要

周囲を観察し、複雑なタスクを遂行する際、どのように視覚情報を捉え、その中から重要な情報を選択的に処理するかが極めて重要である。しかし、現在のマルチモーダル大規模言語モデル（MLLM）には、このような視覚検索メカニズムが欠如しており、特に高解像度かつ視覚的に混雑した画像を扱う場合、重要な視覚的詳細に焦点を当てることができないという課題がある。この問題を解決するために、本研究ではLLM（大規模言語モデル）に内蔵された世界知識を活用して効率的な視覚クエリを実現する、LLMガイド型の視覚検索メカニズム「V」を提案する。このメカニズムをMLLMと組み合わせることで、共同推論、文脈理解、特定の視覚要素への正確なターゲティングが向上する。その統合により、新たなMLLMのメタアーキテクチャ「Show, sEArch, and TelL（SEAL）」が構築された。さらに、高解像度画像の処理能力および視覚的詳細への注目能力を評価するための専用ベンチマーク「VBench」も開発した。本研究は、マルチモーダルシステムに視覚検索機能を組み込むことの重要性を強調している。コードは以下のURLで公開されている：https://github.com/penghao-wu/vstar。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

視覚質問応答

Penghao Wu Saining Xie

概要

周囲を観察し、複雑なタスクを遂行する際、どのように視覚情報を捉え、その中から重要な情報を選択的に処理するかが極めて重要である。しかし、現在のマルチモーダル大規模言語モデル（MLLM）には、このような視覚検索メカニズムが欠如しており、特に高解像度かつ視覚的に混雑した画像を扱う場合、重要な視覚的詳細に焦点を当てることができないという課題がある。この問題を解決するために、本研究ではLLM（大規模言語モデル）に内蔵された世界知識を活用して効率的な視覚クエリを実現する、LLMガイド型の視覚検索メカニズム「V」を提案する。このメカニズムをMLLMと組み合わせることで、共同推論、文脈理解、特定の視覚要素への正確なターゲティングが向上する。その統合により、新たなMLLMのメタアーキテクチャ「Show, sEArch, and TelL（SEAL）」が構築された。さらに、高解像度画像の処理能力および視覚的詳細への注目能力を評価するための専用ベンチマーク「VBench」も開発した。本研究は、マルチモーダルシステムに視覚検索機能を組み込むことの重要性を強調している。コードは以下のURLで公開されている：https://github.com/penghao-wu/vstar。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

V*：マルチモーダルLLMにおけるコアメカニズムとしてのガイド付き視覚探索 | 記事 | HyperAI超神経