17日前

GRAtt-VIS:自動修正型動画インスタンスセグメンテーションにおけるゲート付き残差注意力

Tanveer Hannan, Rajat Koner, Maximilian Bernhard, Suprosanna Shit, Bjoern Menze, Volker Tresp, Matthias Schubert, Thomas Seidl
GRAtt-VIS:自動修正型動画インスタンスセグメンテーションにおけるゲート付き残差注意力
要約

近年の動画インスタンスセグメンテーション(Video Instance Segmentation: VIS)の動向において、複雑かつ長時間にわたる動画シーケンスをモデル化するため、オンライン手法への依存が増している。しかし、特に遮蔽や急激な変化が発生する状況下で、オンライン手法の表現力の低下およびノイズの蓄積という課題が顕在化しており、大きな障壁となっている。トランスフォーマーに基づくクエリ伝搬手法は、二次時間計算量を伴うメモリ効率の低いアテンションを回避する有望なアプローチを提供しているが、前述の課題に起因するインスタンス特徴の劣化に脆弱であり、累積的な誤差の悪化(cascading effects)を引き起こす傾向がある。このような誤差の検出と是正は、依然として十分に研究されていない。本研究では、GRAtt-VIS(Gated Residual Attention for Video Instance Segmentation)を提案する。まず、Gumbel-Softmaxに基づくゲートを用いて、現在のフレームにおける可能性のある誤差を検出する。次に、このゲートの活性化状態に基づき、過去の表現から劣化した特徴を修正する。この残差構成により、専用のメモリを必要とせず、継続的に関連するインスタンス特徴を供給することが可能となる。さらに、ゲートの活性化をマスクとして用いることで、新たなインスタンス間相互作用を提案する。このマスク戦略により、自己アテンションにおいて代表的でないインスタンスクエリの影響を動的に制限し、長期的なトラッキングに必要な情報を保持する。本研究で提唱する、ゲート付き残差接続(Gated Residual Connection)とマスク付き自己アテンション(Masked Self-Attention)の新規組み合わせをGRAttブロックと呼ぶ。このブロックは既存の伝搬ベースのフレームワークに容易に統合可能である。さらに、GRAttブロックはアテンションのオーバーヘッドを顕著に低減し、動的時系列モデリングを簡素化する。実験の結果、GRAtt-VISはYouTube-VISおよび極めて困難なOVISデータセットにおいて、従来手法を大きく上回る最先端の性能を達成した。コードは以下のURLから公開されている:\url{https://github.com/Tanveer81/GRAttVIS}。