HyperAIHyperAI

Command Palette

Search for a command to run...

視覚トランスフォーマーの相関構造の学習

Manjin Kim Paul Hongsuck Seo Cordelia Schmid Minsu Cho

概要

新しい注意機構である構造的自己注意(StructSA)を導入します。この機構は、注意のキーフェーズとクエリフェーズの相互作用から自然に現れる豊富な相関パターンを活用します。StructSAは、畳み込みを通じてキーフェーズとクエリフェーズの空間時間的な構造を認識し、その結果得られる注意マップを使用して値特徴量の局所コンテキストを動的に集約します。これにより、画像やビデオにおけるシーンレイアウト、物体の動き、物体間の関係などの豊富な構造的パターンが効果的に活用されます。StructSAを主要な構成要素として使用し、構造的ビジョントランスフォーマー(StructViT)を開発しました。画像分類およびビデオ分類タスクにおいてその有効性を評価した結果、ImageNet-1K、Kinetics-400、Something-Something V1 & V2、Diving-48、FineGymで最先端の成果を得ました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています