HyperAIHyperAI

Command Palette

Search for a command to run...

学习视觉变换器的相关结构

Manjin Kim Paul Hongsuck Seo Cordelia Schmid Minsu Cho

摘要

我们提出了一种新的注意力机制,称为结构自注意力(StructSA),该机制通过卷积识别键查询交互中自然出现的空间时间结构相关性模式来生成注意力图,并利用这些图动态聚合值特征的局部上下文。这有效地利用了图像和视频中的丰富结构模式,如场景布局、物体运动和物体间关系。以StructSA为主要构建模块,我们开发了结构视觉变换器(StructViT),并在图像和视频分类任务上评估了其有效性,取得了在ImageNet-1K、Kinetics-400、Something-Something V1 & V2、Diving-48和FineGym数据集上的最先进结果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供