Video K-Net: 動画セグメンテーションのための単純で強力かつ統一的なベースライン

本論文では、完全エンドツーエンドのビデオパノプティックセグメンテーションのためのシンプルで強力かつ統一されたフレームワークであるVideo K-Netを提案します。この手法は、学習可能なカーネル群を用いて画像セグメンテーションを統一するK-Netに基づいています。我々は、K-Netから得られるこれらの学習可能なカーネルが、物体の外観とコンテキストを符号化しており、ビデオフレーム間で同一のインスタンスを自然に結びつけることができるという事実に注目しました。この観察結果に触発され、Video K-Netは単純なカーネルベースの外観モデリングと時系列横断的なカーネル相互作用によって、「もの」(things)と「背景」(stuff)をビデオ内で同時にセグメンテーションしトラッキングすることを学習します。そのシンプルさにもかかわらず、Citscapes-VPS、KITTI-STEP、VIPSegにおいて特別な工夫なしに最先端のビデオパノプティックセグメンテーション結果を達成しています。特にKITTI-STEPにおいては、従来の手法に対して約12%の相対的な改善率を示しています。VIPSegでは、Video K-Netは約15%の相対的な改善率を達成し、39.8%のVPQ(Video Panoptic Quality)を得ています。また、ビデオ意味的セグメンテーションでもその汎化性能を検証し、VSPWデータセットで様々なベースラインに対して2%の改善率を得ました。さらに、K-Netをビデオインスタンスセグメンテーション向けのクリップレベルビデオフレームワークに拡張し、YouTube-2019バリデーションセットにおいてResNet50バックボーンでは40.5% mAP(mean Average Precision)、Swin-baseでは54.1% mAPを得ました。我々はこのシンプルでありながら効果的な手法が、統一されたビデオセグメンテーション設計における新しい柔軟なベースラインとして機能することを目指しています。コードとモデルはhttps://github.com/lxtGH/Video-K-Net にて公開されています。