HyperAIHyperAI

Command Palette

Search for a command to run...

CAST: 空間と時間におけるクロスアテンションを用いたビデオアクション認識

Dongho Lee Jongseo Lee Jinwoo Choi

概要

ビデオ内の人的行動の認識には空間的および時間的理解が必要です。既存の行動認識モデルの多くは、ビデオのバランスの取れた空間的・時間的理解に欠けています。本研究では、RGB入力のみを使用してビデオのバランスの取れた空間的・時間的理解を達成する新しい二ストリームアーキテクチャである「空間と時間におけるクロスアテンション(CAST)」を提案します。提案したボトルネッククロスアテンション機構により、空間的専門モデルと時間的専門モデルが情報を交換し、相乗的な予測を行うことが可能となり、性能向上につながります。私たちは異なる特性を持つ公開ベンチマークデータセット(EPIC-KITCHENS-100、Something-Something-V2、Kinetics-400)で広範な実験を行い、提案手法の有効性を検証しました。これらのデータセットにおいて、私たちの手法は一貫して良好な性能を示していますが、既存手法の性能はデータセット特性によって変動することが確認されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています