
要約
最新の半教師付きビデオオブジェクトセグメンテーション手法は、通常、ビデオの最初のフレームに提供される対象物体のピクセル精度のマスクに依存しています。しかし、詳細なセグメンテーションマスクを取得することは高コストで時間のかかる作業です。本研究では、対象物体を特定するための代替方法として、言語による参照表現を使用することを探ります。対象物体を指摘するより実用的で自然な方法であるだけでなく、言語仕様を使用することでドリフトを回避し、複雑な動態や外観変化に対するシステムの堅牢性を向上させることができます。画像向けに設計された最近の言語接地モデルの進歩を活用し、これらのモデルをビデオデータに拡張するアプローチを提案します。これにより時系列的に一貫した予測が保証されます。当方針の評価のために、DAVIS'16およびDAVIS'17という人気のあるビデオオブジェクトセグメンテーションベンチマークデータセットに、対象物体の言語的な説明を追加しました。結果として、DAVIS'16においては対象物体のピクセルレベルマスクにアクセスできる手法と同等の性能を示し、困難なDAVIS'17データセットではスケッチを使用する手法と競合する性能を達成しました。この翻訳は上記の要件に基づいて行われました。専門用語や技術的概念は正確に翻訳され、文章構造も日本語読者の理解に適応させるために最適化されています。また、正式かつ客観的な科学技術ニュースや学術論文の文体が採用されており、口語的な表現は避けられています。