HyperAIHyperAI

Command Palette

Search for a command to run...

関係性自己注意機構:動画理解における注意機構に欠けているもの

Manjin Kim Heeseung Kwon Chunyu Wang Suha Kwak Minsu Cho

概要

畳み込みは、現代のニューラルネットワークにおいて arguably 最も重要な特徴変換であり、ディープラーニングの進展に貢献してきました。近年、畳み込み層を自己注意(self-attention)ブロックに置き換えるTransformerネットワークの登場により、定常的な畳み込みカーネルの限界が明らかになり、動的特徴変換の時代へと移行する契機が生まれました。しかし、既存の動的変換手法、例えば自己注意機構は、空間的・時間的対応関係(すなわち運動情報)が有効な表現に不可欠である動画理解の文脈において、依然として制限を抱えています。本研究では、動的に関係性カーネルを生成し、関係性コンテキストを統合することで、動画に内在する豊かな時空間的関係構造を活用する、関係性特徴変換としての「関係性自己注意(Relational Self-Attention: RSA)」を提案します。実験およびアブレーションスタディの結果、RSAネットワークは畳み込みおよび自己注意機構を大きく上回り、Something-Something-V1 & V2、Diving48、FineGymといった標準的な運動中心の動画行動認識ベンチマークにおいて、最先端の性能を達成しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
関係性自己注意機構:動画理解における注意機構に欠けているもの | 記事 | HyperAI超神経