
要約
我々は、リアルタイムかつ高精度な半教師付き動画オブジェクトセグメンテーションアルゴリズムを開発した。このアルゴリズムの精度は、最も正確ではあるが計算コストが非常に高いオンライン学習モデルと同等であり、同時に、精度はやや劣るものの最も高速なテンプレートマッチング手法と同程度の処理速度を達成している。モデルの核心となる構成要素は、動画全体にわたって情報を効果的に要約・伝達する新しいグローバルコンテキストモジュールである。従来の手法が現在のフレームのセグメンテーションを導くために1フレームまたは数フレームのみを用いるのに対し、本モジュールは過去のすべてのフレームを活用する。また、従来の最先端技術である空間時間メモリネットワークがスパティオテイムポジションごとにメモリをキャッシュするのに対し、グローバルコンテキストモジュールは固定サイズの特徴表現を用いる。このため、動画の長さにかかわらずメモリ使用量が一定となり、メモリと計算量の消費を大幅に削減できる。この新規モジュールを導入したことで、本モデルは標準ベンチマークにおいてリアルタイム速度でトップレベルの性能を達成した。