2ヶ月前
ビデオオブジェクトセグメンテーションにおける時間情報の非使用
Kevis-Kokitsi Maninis; Sergi Caelles; Yuhua Chen; Jordi Pont-Tuset; Laura Leal-Taixé; Daniel Cremers; Luc Van Gool

要約
ビデオオブジェクトセグメンテーションおよび一般的なビデオ処理は、歴史的に連続するビデオフレームの時間的一貫性と冗長性に依存する手法が主流を占めてきました。しかし、物体が遮蔽されたり、シーケンスにいくつかのフレームが欠落したりするなど、時間的な滑らかさが突然破られる場合、これらの手法の結果は大幅に悪化するか、または全く結果を出力しないことがあります。本論文では、各フレームを独立して処理する正規直交アプローチ(すなわち時間的情報を無視するアプローチ)を探求します。特に、半教師付きビデオオブジェクトセグメンテーションという課題に取り組んでいます。これは、最初のフレームで物体のマスクが与えられた場合に、ビデオから背景と物体を分離することです。私たちはSemantic One-Shot Video Object Segmentation (OSVOS-S)を提案します。これは完全畳み込みニューラルネットワークアーキテクチャに基づいており、ImageNetで学習した一般的な意味情報を順次転送し、前景セグメンテーションのタスクへと移行し、最終的にはテストシーケンス内の単一の注釈付き物体の外観を学習します(したがってワンショット)。私たちは実験を通じて示しました。インスタンスレベルでの意味情報が効果的に組み合わさると、私たちの以前の方法であるOSVOSの結果が劇的に改善されることです。2つの最近のビデオセグメンテーションデータベースでの実験により、OSVOS-Sは最先端技術の中で最も高速かつ正確な手法であることが確認されました。