17日前
フレーム間通信Transformerを用いたビデオインスタンスセグメンテーション
Sukjun Hwang, Miran Heo, Seoung Wug Oh, Seon Joo Kim

要約
本研究は、トランスフォーマーを基盤とする新たなエンドツーエンド型動画インスタンスセグメンテーション(VIS)手法を提案する。近年、複数フレームから得られる豊富な情報を活用できるため、フレーム単位の手法に比べて優れた性能を発揮する「クリップ単位(per-clip)」のパイプラインが注目されている。しかし、従来のクリップ単位モデルは、フレーム間の情報伝達を実現するため、計算量およびメモリ使用量が非常に大きくなるという課題があり、実用性に制限があった。本研究では、入力クリップ内の文脈を効率的に符号化することで、フレーム間の情報伝達にかかるオーバーヘッドを大幅に低減する「フレーム間通信トランスフォーマー(Inter-frame Communication Transformers: IFC)」を提案する。具体的には、各フレームのシーンを要約する情報伝達手段として、簡潔なメモリトークン(memory tokens)を導入する。各フレームの特徴量は、正確に符号化されたメモリトークン間での情報交換を通じて、他のフレームと関連付けられ、豊かに拡張される。本手法は最新のベンチマークデータセット上で検証され、オフライン推論においてYouTube-VIS 2019の検証セットでAP 44.6という最先端の性能を達成した。さらに、実行速度も非常に高速であり、89.4 FPSを実現した。本手法は、わずかな遅延でリアルタイムに動画を処理可能なニア・オンライン推論にも適用可能である。実装コードは公開予定である。