HyperAIHyperAI

Command Palette

Search for a command to run...

DirecFormer:Transformerにおける指向性アテンションを用いたロバストな行動認識手法

Thanh-Dat Truong Quoc-Huy Bui Chi Nhan Duong Han-Seok Seo Son Lam Phung Xin Li Khoa Luu

概要

近年、人間の行動認識はコンピュータビジョン分野における注目される研究テーマの一つとなっている。3D-CNNを基盤とする多様な手法が、動画行動認識タスクにおける空間的・時間的次元を同時に扱うために提案されており、競争力のある成果を上げている。しかし、これらの手法は、堅牢性や一般化能力に欠けるという根本的な限界を抱えており、たとえば、動画フレームの時間的順序が認識結果にどのように影響するかという問題が未解決のまま残っている。本研究では、堅牢な行動認識を実現するためのエンドツーエンド型Transformerベースの「Directed Attention(DirecFormer)」フレームワークを提案する。本手法は、Transformerアプローチに新たな視点を導入し、行動のシーケンスにおける「正しい順序」を理解する。本研究の貢献は以下の3点に集約される。第一に、行動認識問題に「順序付き時間学習(ordered temporal learning)」という新たな課題を提示した。第二に、行動の正しい順序で注目(attention)を適切に配分できる新しい「Directed Attention(方向性注意)」機構を提案した。第三に、行動シーケンスモデリングにおいて、順序とクラスの両方を含む条件付き依存関係(conditional dependency)を導入した。提案手法は、Jester、Kinetics-400、Something-Something-V2の3つの標準的大規模ベンチマークにおいて、最近の行動認識手法と比較して一貫して最先端(SOTA)の性能を達成している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています