Command Palette
Search for a command to run...
参照音声視覚セグメンテーションにおけるオムニモーダル表現と推論の実現へ
参照音声視覚セグメンテーションにおけるオムニモーダル表現と推論の実現へ
Kaining Ying Henghui Ding Guanquan Jie Yu-Gang Jiang
概要
音声視覚参照セグメンテーション(RAVS)は近年、著しい進展を遂げているが、マルチモーダル情報の統合や音声視覚コンテンツの深層的な理解・推論といった課題は依然として残されている。RAVSの限界を広げ、本分野における今後の研究を促進するため、本研究では、2,098本の動画と59,458件のマルチモーダル参照表現を含む新しいデータセット「オムニモーダル参照音声視覚セグメンテーション(OmniAVS)」を提案する。OmniAVSの特徴は以下の3点に集約される:(1)テキスト、音声、音響、視覚的ヒントの8種類の柔軟な組み合わせによるマルチモーダル表現;(2)音声の存在を検出するにとどまらず、音声コンテンツの理解に重点を置いた設計;(3)表現に複雑な推論および世界知識を組み込むこと。さらに、OmniAVSにおけるマルチモーダル推論および細粒度の音声視覚コンテンツ理解という課題に対応するため、オムニモーダル指示型セグメンテーションアシスタント(OISA)を導入する。OISAは、マルチモーダル大規模言語モデル(MLLM)を活用して複雑なマルチモーダルヒントを理解し、推論に基づくセグメンテーションを実現する。広範な実験の結果、OISAはOmniAVSにおいて既存手法を上回る性能を達成し、他の関連タスクにおいても競争力ある結果を示した。