17日前

DirecFormer:Transformerにおける指向性アテンションを用いたロバストな行動認識手法

Thanh-Dat Truong, Quoc-Huy Bui, Chi Nhan Duong, Han-Seok Seo, Son Lam Phung, Xin Li, Khoa Luu
DirecFormer:Transformerにおける指向性アテンションを用いたロバストな行動認識手法
要約

近年、人間の行動認識はコンピュータビジョン分野における注目される研究テーマの一つとなっている。3D-CNNを基盤とする多様な手法が、動画行動認識タスクにおける空間的・時間的次元を同時に扱うために提案されており、競争力のある成果を上げている。しかし、これらの手法は、堅牢性や一般化能力に欠けるという根本的な限界を抱えており、たとえば、動画フレームの時間的順序が認識結果にどのように影響するかという問題が未解決のまま残っている。本研究では、堅牢な行動認識を実現するためのエンドツーエンド型Transformerベースの「Directed Attention(DirecFormer)」フレームワークを提案する。本手法は、Transformerアプローチに新たな視点を導入し、行動のシーケンスにおける「正しい順序」を理解する。本研究の貢献は以下の3点に集約される。第一に、行動認識問題に「順序付き時間学習(ordered temporal learning)」という新たな課題を提示した。第二に、行動の正しい順序で注目(attention)を適切に配分できる新しい「Directed Attention(方向性注意)」機構を提案した。第三に、行動シーケンスモデリングにおいて、順序とクラスの両方を含む条件付き依存関係(conditional dependency)を導入した。提案手法は、Jester、Kinetics-400、Something-Something-V2の3つの標準的大規模ベンチマークにおいて、最近の行動認識手法と比較して一貫して最先端(SOTA)の性能を達成している。

DirecFormer:Transformerにおける指向性アテンションを用いたロバストな行動認識手法 | 最新論文 | HyperAI超神経