要約
時系列行動分割のタスクにおいて、従来の手法は一般的にフレーム単位の分類問題として扱っている。本論文では、各行動カテゴリの中心表現(central representation)を学習することで、分類問題をカテゴリ固有のクエリとフレーム特徴の類似度計算問題へと変換する、シンプルかつ効果的なモデルASQueryを提案する。これらの中心表現は、Transformerデコーダモジュールを用いて動的に生成され、動画全体に対するより柔軟かつ包括的な認識能力を付与する。さらに、本研究では分割結果の精度向上を図るため、境界クエリ(boundary query)を初めて導入し、煩わしい過剰分割(over-segmentation)問題の緩和に寄与する。ASQueryは最先端モデルと比較して優れた性能を示し、公開の行動分割データセットであるBreakfastおよびAssembly101において、それぞれ平均指標で0.9%および4.1%の向上を達成した。ソースコードは https://github.com/zlngan/ASQuery で公開されている。