8ヶ月前

ビデオ理解

セマンティックセグメンテーション

マルチモーダル

コンピュータビジョン

Cilin Yan* Haochen Wang* Shilin Yan, Xiaolong Jiang, Yao Hu Beihang University University of Amsterdam Xiaohongshu Inc. Guoliang Kang† Weidi Xie Efstratios Gavves Beihang University Shanghai Jiao Tong University University of Amsterdam

概要

既存のビデオオブジェクトセグメンテーション（VOS）は、カテゴリ、マスク、または短いフレーズなどの明示的なユーザ指示に依存しており、世界の知識を用いて複雑なビデオセグメンテーションを行う能力が制限されています。本論文では、新しいタスクであるリーズニングビデオオブジェクトセグメンテーション（ReasonVOS）を導入します。このタスクは、世界の知識とビデオコンテキストに基づく複雑な推論能力を必要とする暗黙的なテキストクエリに応じて、一連のセグメンテーションマスクを生成することを目指しています。これは構造化された環境理解やオブジェクト中心の相互作用において重要であり、体現AIの発展にとって不可欠です。ReasonVOSに対処するために、VISA（ビデオベースの大規模言語モデルによる指示型セグメンテーションアシスタント）を導入します。VISAは、マルチモーダルLLMの世界の知識推論機能を活用しながら、マスクデコーダーを使用してビデオ内のオブジェクトをセグメンテーションおよびトラッキングする能力を持っています。さらに、35,074件の指示-マスクシーケンスペアからなる1,042本の多様なビデオから構成される包括的なベンチマークを確立しました。このベンチマークは、ReasonVOSモデルの指示調整と評価のために、複雑な世界の知識推論をセグメンテーションタスクに組み込んでいます。8つのデータセットでの実験結果は、VISAがビデオおよび画像領域における複雑な推論セグメンテーションと単純な参照セグメンテーション両方で効果的であることを示しています。コードとデータセットはhttps://github.com/cilinyan/VISAで公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

セマンティックセグメンテーション

マルチモーダル

コンピュータビジョン

Cilin Yan* Haochen Wang* Shilin Yan, Xiaolong Jiang, Yao Hu Beihang University University of Amsterdam Xiaohongshu Inc. Guoliang Kang† Weidi Xie Efstratios Gavves Beihang University Shanghai Jiao Tong University University of Amsterdam

概要

既存のビデオオブジェクトセグメンテーション（VOS）は、カテゴリ、マスク、または短いフレーズなどの明示的なユーザ指示に依存しており、世界の知識を用いて複雑なビデオセグメンテーションを行う能力が制限されています。本論文では、新しいタスクであるリーズニングビデオオブジェクトセグメンテーション（ReasonVOS）を導入します。このタスクは、世界の知識とビデオコンテキストに基づく複雑な推論能力を必要とする暗黙的なテキストクエリに応じて、一連のセグメンテーションマスクを生成することを目指しています。これは構造化された環境理解やオブジェクト中心の相互作用において重要であり、体現AIの発展にとって不可欠です。ReasonVOSに対処するために、VISA（ビデオベースの大規模言語モデルによる指示型セグメンテーションアシスタント）を導入します。VISAは、マルチモーダルLLMの世界の知識推論機能を活用しながら、マスクデコーダーを使用してビデオ内のオブジェクトをセグメンテーションおよびトラッキングする能力を持っています。さらに、35,074件の指示-マスクシーケンスペアからなる1,042本の多様なビデオから構成される包括的なベンチマークを確立しました。このベンチマークは、ReasonVOSモデルの指示調整と評価のために、複雑な世界の知識推論をセグメンテーションタスクに組み込んでいます。8つのデータセットでの実験結果は、VISAがビデオおよび画像領域における複雑な推論セグメンテーションと単純な参照セグメンテーション両方で効果的であることを示しています。コードとデータセットはhttps://github.com/cilinyan/VISAで公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

VISA: 大規模言語モデルを用いた動画オブジェクトセグメンテーションの推論 | 記事 | HyperAI超神経