16日前

URVOS:大規模ベンチマークを備えた統合型参照動画オブジェクトセグメンテーションネットワーク

{Joon-Young Lee, Seonguk Seo, Bohyung Han}
URVOS:大規模ベンチマークを備えた統合型参照動画オブジェクトセグメンテーションネットワーク
要約

本稿では、統一的な参照動画オブジェクトセグメンテーションネットワーク(URVOS)を提案する。URVOSは、動画と参照表現(referring expression)を入力として受け取り、与えられた言語表現によって指されるオブジェクトのマスクを、動画全体のフレームにわたって推定する。本手法は、適切に組み合わせられた2つのアテンションモデルを用いた単一の深層ニューラルネットワークを活用し、言語に基づくオブジェクトセグメンテーションとマスク伝搬を統合的に処理することにより、困難な課題に取り組む。さらに、本研究では、初めてとなる大規模な参照動画オブジェクトセグメンテーションデータセット「Refer-Youtube-VOS」を構築した。我々は、自ら構築したデータセットを含む2つのベンチマークデータセット上でモデルを評価し、提案手法の有効性を実証した。データセットは、https://github.com/skynbe/Refer-Youtube-VOS にて公開されている。