8ヶ月前

視覚質問応答

ビデオ処理

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Yongliang Wu Xinting Hu Yuyang Sun Yizhou Zhou Wenbo Zhu Fengyun Rao Bernt Schiele Xu Yang

概要

ビデオ大規模言語モデル（Vid-LLMs）は、QA対話におけるビデオコンテンツの理解において著しい進歩を遂げています。しかし、これらのモデルは、正確な時間的局在化を必要とするタスクへの視覚的理解の拡張に苦戦しています。この問題に対処するため、私たちはNumber-Prompt（NumPro）という新しい手法を導入します。NumProは、各ビデオフレームに一意の数値識別子を追加することで、Vid-LLMsが視覚的理解と時間的局在化を結びつけることを可能にします。ビデオを番号付きのフレーム画像の系列として扱うことで、NumProはVTGを直感的なプロセスに変換します：連続してマンガのパネルをめくるようにです。これにより、Vid-LLMsは「イベントのタイムラインを読む」ことができ、視覚的内容と対応する時間的情報を正確にリンクさせます。私たちの実験では、NumProがトップクラスのVid-LLMsのVTG性能を大幅に向上させることを示しており、追加の計算コストなしで達成されています。さらに、NumPro強化データセットでの微調整により、VTGにおける新たな最先端が定義され、以前の最良の方法よりも最大6.9%（mIoUでモーメント検索）と8.5%（mAPでハイライト検出）高い性能が得られています。コードは https://github.com/yongliang-wu/NumPro で公開されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

視覚質問応答

ビデオ処理

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Yongliang Wu Xinting Hu Yuyang Sun Yizhou Zhou Wenbo Zhu Fengyun Rao Bernt Schiele Xu Yang

概要

ビデオ大規模言語モデル（Vid-LLMs）は、QA対話におけるビデオコンテンツの理解において著しい進歩を遂げています。しかし、これらのモデルは、正確な時間的局在化を必要とするタスクへの視覚的理解の拡張に苦戦しています。この問題に対処するため、私たちはNumber-Prompt（NumPro）という新しい手法を導入します。NumProは、各ビデオフレームに一意の数値識別子を追加することで、Vid-LLMsが視覚的理解と時間的局在化を結びつけることを可能にします。ビデオを番号付きのフレーム画像の系列として扱うことで、NumProはVTGを直感的なプロセスに変換します：連続してマンガのパネルをめくるようにです。これにより、Vid-LLMsは「イベントのタイムラインを読む」ことができ、視覚的内容と対応する時間的情報を正確にリンクさせます。私たちの実験では、NumProがトップクラスのVid-LLMsのVTG性能を大幅に向上させることを示しており、追加の計算コストなしで達成されています。さらに、NumPro強化データセットでの微調整により、VTGにおける新たな最先端が定義され、以前の最良の方法よりも最大6.9%（mIoUでモーメント検索）と8.5%（mAPでハイライト検出）高い性能が得られています。コードは https://github.com/yongliang-wu/NumPro で公開されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています