2ヶ月前

MeViS: 大規模ベンチマークで動的表現を用いたビデオセグメンテーション

Ding, Henghui ; Liu, Chang ; He, Shuting ; Jiang, Xudong ; Loy, Chen Change
MeViS: 大規模ベンチマークで動的表現を用いたビデオセグメンテーション
要約

本論文は、運動表現を用いたビデオセグメンテーションに取り組んでおり、物体の運動を記述する文章に基づいてビデオコンテンツ内の物体をセグメントすることに焦点を当てています。既存の参照ビデオ物体データセットは、一般的に目立つ物体に焦点を当て、その物体が単一のフレームで識別できる可能性のある過度な静的属性を含む言語表現を使用しています。これらのデータセットでは、言語ガイド付きビデオ物体セグメンテーションにおいて運動の重要性が軽視されています。運動表現を使用してビデオ内の物体を位置づけおよびセグメントする可行性を調査するために、我々は大規模なデータセットであるMeViS(Motion Expressions for Video Segmentation)を提案します。このデータセットには、複雑な環境下で目標物体を示す多数の運動表現が含まれています。我々は5つの既存の参照ビデオ物体セグメンテーション(RVOS)手法についてベンチマークを行い、MeViSデータセット上で包括的な比較を行いました。結果は、現在のRVOS手法が運動表現ガイド付きビデオセグメンテーションに対して効果的に対処できないことを示しています。さらに、課題を分析し、提案されたMeViSデータセット用のベースラインアプローチを提示します。我々のベンチマークの目的は、複雑なビデオシーンにおける物体セグメンテーションにおいて運動表現を主要な手がかりとして利用する効果的な言語ガイド付きビデオセグメンテーションアルゴリズムを開発するためのプラットフォームを提供することです。提案されたMeViSデータセットはhttps://henghuiding.github.io/MeViS で公開されています。

MeViS: 大規模ベンチマークで動的表現を用いたビデオセグメンテーション | 最新論文 | HyperAI超神経