17日前

DeVIS:変形可能トランスフォーマーを動画インスタンスセグメンテーションに活用するための手法

Adrià Caelles, Tim Meinhardt, Guillem Brasó, Laura Leal-Taixé
DeVIS:変形可能トランスフォーマーを動画インスタンスセグメンテーションに活用するための手法
要約

動画インスタンスセグメンテーション(Video Instance Segmentation: VIS)は、動画シーケンスにおいて複数オブジェクトの検出、追跡、セグメンテーションを統合的に処理するタスクである。過去のVIS手法は、これらのサブタスクの分割的なアーキテクチャ設計を模倣していたため、統合的な解決策を捉えることができなかった。近年、Transformerモデルの導入により、VIS全体を単一のセット予測問題として定式化することが可能となった。しかし、既存のTransformerベースの手法は二次時間計算量を有しており、長時間の学習、高いメモリ消費、低スケールの特徴マップ処理を要するという課題を抱えていた。可変アテンション(Deformable Attention)はより効率的な代替手段を提供するが、その時間領域およびセグメンテーションタスクへの応用はまだ十分に検討されていない。本研究では、可変Transformerの効率性と性能を活かした新しいVIS手法、Deformable VIS(DeVIS)を提案する。複数フレームにわたってすべてのVISサブタスクを統合的に処理するため、インスタンスに敏感なオブジェクトクエリを用いた時間的マルチスケール可変アテンションを導入する。さらに、マルチスケール特徴を活用する新しい画像および動画インスタンスマスクヘッドを設計し、複数の手がかりを用いたクリップ追跡により、ニア・オンラインな動画処理を実現する。DeVISはメモリ使用量と学習時間の両方を削減し、YouTube-VIS 2021および困難なOVISデータセットにおいて、最先端の性能を達成した。コードは以下のURLで公開されている:https://github.com/acaelles97/DeVIS

DeVIS:変形可能トランスフォーマーを動画インスタンスセグメンテーションに活用するための手法 | 最新論文 | HyperAI超神経