17 天前

DeBiFormer:具有可变形代理双层路由注意力机制的视觉Transformer

Nguyen Huu Bao Long, Chenyu Zhang, Yuzhi Shi, Tsubasa Hirakawa, Takayoshi Yamashita, Tohgoroh Matsui, Hironobu Fujiyoshi
DeBiFormer:具有可变形代理双层路由注意力机制的视觉Transformer
摘要

具有不同注意力模块的视觉Transformer在视觉任务中已展现出卓越的性能。尽管采用自适应稀疏注意力机制(如DAT)在图像分类任务中取得了优异效果,但在微调用于语义分割任务时,由可变形点选取的关键值对(key-value pairs)缺乏语义相关性。BiFormer中提出的查询感知稀疏注意力机制旨在使每个查询聚焦于top-k路由区域,然而在注意力计算过程中,所选的关键值对受到大量无关查询的干扰,导致对更重要区域的关注度被削弱。为解决上述问题,本文提出一种新型的可变形双层路由注意力模块(Deformable Bi-level Routing Attention, DBRA),该模块通过引入代理查询(agent queries)优化关键值对的选择过程,并提升注意力图中查询的可解释性。基于DBRA模块,我们进一步构建了一种新型通用视觉Transformer——可变形双层路由注意力Transformer(Deformable Bi-level Routing Attention Transformer, DeBiFormer)。DeBiFormer在多种计算机视觉任务中均经过验证,涵盖图像分类、目标检测与语义分割,充分证明了其有效性。相关代码已开源,地址为:{https://github.com/maclong01/DeBiFormer}。