16日前
境界意識型クエリ投票を用いた効率的な時系列行動セグメンテーション
Peiyao Wang, Yuewei Lin, Erik Blasch, Jie Wei, Haibin Ling

要約
近年、時系列行動分割(Temporal Action Segmentation: TAS)の性能は向上しているものの、密な入力データや複雑なモデル構造、高コストな後処理要件により、有望な結果を得るにはしばしば高い計算コストが伴う。性能を維持しつつ効率性を向上させるため、本研究では「各セグメントごとの分類」に焦点を当てた新しいアプローチを提案する。Transformerの能力を活用し、各動画セグメントをインスタンストークンとしてトークン化し、内在的なインスタンスセグメンテーション機能を付与する。効率的な行動分割を実現するため、境界情報を意識したTransformerネットワーク「BaFormer」を導入する。BaFormerは、インスタンスセグメンテーションにインスタンスクエリを用い、クラスに依存しない境界予測にはグローバルクエリを採用することで、連続的なセグメント提案を生成する。推論段階では、インスタンスセグメンテーションに基づいて境界ごとのセグメントを分類するシンプルかつ効果的な投票戦略を採用する。注目すべきは、単段階アプローチであるBaFormerが、最先端手法DiffActと比較して実行時間のわずか6%にまで削減しつつ、多数の代表的なベンチマークにおいて同等またはより優れた精度を達成している点である。本研究のコードは、https://github.com/peiyao-w/BaFormer にて公開されている。