Command Palette
Search for a command to run...
{Li-Min Wang Gangshan Wu Ziteng Gao Zhifeng Li Zhenzhi Wang}

要約
トリムされていない動画における人間の行動セグメントの同定は、境界の曖昧さや過剰なセグメンテーションという課題により、依然として困難な問題である。本研究では、これらの課題に対処するため、2つの新規な構成要素を導入した境界意識型のカスケードネットワークを提案する。まず、モデルが曖昧なフレームに対して適応的な受容 field を持つとともに、より信頼性の高い予測が可能となる新たなカスケード設計法、すなわち「ステージカスケード(Stage Cascade)」を提案する。次に、意味的な境界情報を活用して局所的な予測を統合する、汎用的かつ原理的な平滑化操作である「ローカルバリアープーリング(local barrier pooling)」を設計した。さらに、これらの2つの構成要素はエンドツーエンドの学習フレームワーク上で共同で微調整可能である。本研究では、50Salads、GTEA、Breakfastの3つの難易度の高いデータセットを用いた実験により、提案手法が現在の最先端手法を顕著に上回ることを示した。コードは https://github.com/MCG-NJU/BCN で公開されている。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| action-segmentation-on-50-salads-1 | BCN | Acc: 84.4 Edit: 74.3 F1@10%: 82.3 F1@25%: 81.3 F1@50%: 74 |
| action-segmentation-on-breakfast-1 | BCN | Acc: 70.4 Average F1: 63.1 Edit: 66.2 F1@10%: 68.7 F1@25%: 65.5 F1@50%: 55.0 |
| action-segmentation-on-gtea-1 | BCN | Acc: 79.8 Edit: 84.4 F1@10%: 88.5 F1@25%: 87.1 F1@50%: 77.3 |