Command Palette

Search for a command to run...

4ヶ月前

階層的な動画表現を用いたアクションセグメンテーションの最適化

{Dongheui Lee Hyemin Ahn}

階層的な動画表現を用いたアクションセグメンテーションの最適化

要約

本稿では、与えられた動画の全体的な文脈を階層的に理解することで、さまざまなモデルから得られる時系列行動分割結果を精緻化する「階層的行動セグメンテーション精製モデル(Hierarchical Action Segmentation Refiner, HASR)」を提案する。行動セグメンテーション用のバックボーンモデルが動画の分割方法を推定する際、本モデルはフレームレベルの特徴からセグメントレベルの表現を抽出し、さらにセグメントレベルの表現に基づいて動画全体レベルの表現を生成する。これらの階層的表現を基に、本モデルは動画全体の文脈を参照し、文脈に合わないセグメントラベルの修正を予測することができる。HASRは、MS-TCN、SSTDA、ASRFなど、さまざまな行動セグメンテーションモデルに統合可能であり、GTEA、50Salads、Breakfastの3つの難易度の高いデータセット上で、最先端モデルの性能を向上させる。例えば、50Saladsデータセットにおいて、MS-TCNのセグメント編集スコアは67.9%から77.4%へ、SSTDAは75.8%から77.3%へ、ASRFは79.3%から81.0%へと向上した。さらに、HASRは訓練時に参照されていない未知のバックボーンモデルからの分割結果に対しても精製が可能である。この汎化性能により、HASRは時系列行動分割の既存手法を強化する有効なツールとなる。本研究のコードは、https://github.com/cotton-ahn/HASR_iccv2021 にて公開されている。

ベンチマーク

ベンチマーク方法論指標
action-segmentation-on-50-salads-1ASRF + HASR
Acc: 83.9
Edit: 81.0
F1@10%: 86.6
F1@25%: 85.7
F1@50%: 78.5
action-segmentation-on-breakfast-1ASRF + HASR
Acc: 69.4
Average F1: 67.1
Edit: 71.9
F1@10%: 74.7
F1@25%: 69.5
F1@50%: 57.0
action-segmentation-on-gtea-1ASRF + HASR
Acc: 76.9
Edit: 84.5
F1@10%: 89.2
F1@25%: 87.2
F1@50%: 74.8
action-segmentation-on-gtea-1SSTDA + HASR
Acc: 78.7
Edit: 87.5
F1@10%: 90.9
F1@25%: 88.6
F1@50%: 76.4

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
階層的な動画表現を用いたアクションセグメンテーションの最適化 | 論文 | HyperAI超神経