6ヶ月前

マルチモーダル

ビデオ理解

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Kaining Ying Henghui Ding Guanquan Jie Yu-Gang Jiang

概要

音声視覚参照セグメンテーション（RAVS）は近年、著しい進展を遂げているが、マルチモーダル情報の統合や音声視覚コンテンツの深層的な理解・推論といった課題は依然として残されている。RAVSの限界を広げ、本分野における今後の研究を促進するため、本研究では、2,098本の動画と59,458件のマルチモーダル参照表現を含む新しいデータセット「オムニモーダル参照音声視覚セグメンテーション（OmniAVS）」を提案する。OmniAVSの特徴は以下の3点に集約される：（1）テキスト、音声、音響、視覚的ヒントの8種類の柔軟な組み合わせによるマルチモーダル表現；（2）音声の存在を検出するにとどまらず、音声コンテンツの理解に重点を置いた設計；（3）表現に複雑な推論および世界知識を組み込むこと。さらに、OmniAVSにおけるマルチモーダル推論および細粒度の音声視覚コンテンツ理解という課題に対応するため、オムニモーダル指示型セグメンテーションアシスタント（OISA）を導入する。OISAは、マルチモーダル大規模言語モデル（MLLM）を活用して複雑なマルチモーダルヒントを理解し、推論に基づくセグメンテーションを実現する。広範な実験の結果、OISAはOmniAVSにおいて既存手法を上回る性能を達成し、他の関連タスクにおいても競争力ある結果を示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

ビデオ理解

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Kaining Ying Henghui Ding Guanquan Jie Yu-Gang Jiang

概要

音声視覚参照セグメンテーション（RAVS）は近年、著しい進展を遂げているが、マルチモーダル情報の統合や音声視覚コンテンツの深層的な理解・推論といった課題は依然として残されている。RAVSの限界を広げ、本分野における今後の研究を促進するため、本研究では、2,098本の動画と59,458件のマルチモーダル参照表現を含む新しいデータセット「オムニモーダル参照音声視覚セグメンテーション（OmniAVS）」を提案する。OmniAVSの特徴は以下の3点に集約される：（1）テキスト、音声、音響、視覚的ヒントの8種類の柔軟な組み合わせによるマルチモーダル表現；（2）音声の存在を検出するにとどまらず、音声コンテンツの理解に重点を置いた設計；（3）表現に複雑な推論および世界知識を組み込むこと。さらに、OmniAVSにおけるマルチモーダル推論および細粒度の音声視覚コンテンツ理解という課題に対応するため、オムニモーダル指示型セグメンテーションアシスタント（OISA）を導入する。OISAは、マルチモーダル大規模言語モデル（MLLM）を活用して複雑なマルチモーダルヒントを理解し、推論に基づくセグメンテーションを実現する。広範な実験の結果、OISAはOmniAVSにおいて既存手法を上回る性能を達成し、他の関連タスクにおいても競争力ある結果を示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

参照音声視覚セグメンテーションにおけるオムニモーダル表現と推論の実現へ | 記事 | HyperAI超神経