YouTube-VOS: Sequence-to-Sequence ビデオオブジェクトセグメンテーション

長期的な空間時系列特徴を学習することは、多くのビデオ分析タスクにおいて重要です。しかし、既存のビデオセグメンテーション手法は主に静止画像セグメンテーション技術に依存しており、セグメンテーションのために時系列依存関係を捉える手法は事前に学習された光流モデルに頼らざるを得ません。これにより、問題に対する最適な解決策が得られにくくなっています。エンドツーエンドの逐次学習を用いてビデオセグメンテーションのための空間時系列特徴を探求する方法は、利用可能なビデオセグメンテーションデータセットの規模によって大きく制限されています。すなわち、最大のビデオセグメンテーションデータセットであっても、わずか90本の短いビデオクリップしか含まれていません。この問題を解決するために、私たちは新しい大規模なビデオオブジェクトセグメンテーションデータセットである「YouTube Video Object Segmentation データセット(YouTube-VOS)」を構築しました。当該データセットには3,252本のYouTubeビデオクリップと78種類のカテゴリ(一般的な物体や人間活動を含む)が含まれており、これまで知られている中で最も大規模なビデオオブジェクトセグメンテーションデータセットとなっています。このデータセットはhttps://youtube-vos.orgで公開しています。このデータセットに基づき、私たちはビデオ内の長期的な空間時系列情報を完全に活用するための新しいシーケンスツーシーケンスネットワークを提案します。実験結果から、私たちの手法はYouTube-VOSテストセットでは最高の結果を達成し、DAVIS 2016では現行の最先端手法と同等の結果を示していることが確認されました。実験は大規模なデータセットが我々のモデル成功への鍵となる要素であることを示しています。