Command Palette
Search for a command to run...
{Zhao Jian Xing Junliang Li Jianshu Wang Zhecan Li Liang Li Zhou Zheng Wang Nie Lei Jin Lei Gan Ziliang}
要約
時系列行動分割のタスクにおいて、従来の手法は一般的にフレーム単位の分類問題として扱っている。本論文では、各行動カテゴリの中心表現(central representation)を学習することで、分類問題をカテゴリ固有のクエリとフレーム特徴の類似度計算問題へと変換する、シンプルかつ効果的なモデルASQueryを提案する。これらの中心表現は、Transformerデコーダモジュールを用いて動的に生成され、動画全体に対するより柔軟かつ包括的な認識能力を付与する。さらに、本研究では分割結果の精度向上を図るため、境界クエリ(boundary query)を初めて導入し、煩わしい過剰分割(over-segmentation)問題の緩和に寄与する。ASQueryは最先端モデルと比較して優れた性能を示し、公開の行動分割データセットであるBreakfastおよびAssembly101において、それぞれ平均指標で0.9%および4.1%の向上を達成した。ソースコードは https://github.com/zlngan/ASQuery で公開されている。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| action-segmentation-on-assembly101 | ASQuery | Edit: 35.3 F1@10%: 37.8 F1@25%: 35.6 F1@50%: 29.4 MoF: 40.4 |
| action-segmentation-on-breakfast-1 | ASQuery | Acc: 77.9 Average F1: 74.6 Edit: 78.4 F1@10%: 80.7 F1@25%: 76.5 F1@50%: 66.5 |