6 个月前

卷积神经网络

计算机视觉

Chen Ziwen Kaushik Patnaik Shuangfei Zhai Alvin Wan Zhile Ren Alex Schwing Alex Colburn Li Fuxin

摘要

现实世界图像通常具有高度不平衡的内容密度：某些区域非常均匀（例如大面积的蓝天），而另一些区域则散布着大量小型物体。然而，卷积神经网络中常用的逐级网格下采样策略对所有区域一视同仁，导致小型物体在下采样后仅在极少数空间位置上被保留，从而在分割等任务中表现不佳。直观上，若在下采样过程中保留更多代表小型物体的像素，有助于更好地维持关键信息。为此，我们提出 AutoFocusFormer（AFF），一种基于局部注意力机制的Transformer图像识别主干网络，通过学习保留对任务最为重要的像素，实现自适应下采样。由于自适应下采样生成的像素在图像平面上呈非规则分布，我们摒弃了传统的网格结构，转而设计了一种新型基于点的局部注意力模块。该模块由一个平衡聚类模块和一个可学习的邻域合并模块协同支持，能够为当前最先进的分割头提供点式表示。实验结果表明，我们的 AutoFocusFormer（AFF）在与基线模型规模相近的情况下，性能显著优于现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Chen Ziwen Kaushik Patnaik Shuangfei Zhai Alvin Wan Zhile Ren Alex Schwing Alex Colburn Li Fuxin

摘要

现实世界图像通常具有高度不平衡的内容密度：某些区域非常均匀（例如大面积的蓝天），而另一些区域则散布着大量小型物体。然而，卷积神经网络中常用的逐级网格下采样策略对所有区域一视同仁，导致小型物体在下采样后仅在极少数空间位置上被保留，从而在分割等任务中表现不佳。直观上，若在下采样过程中保留更多代表小型物体的像素，有助于更好地维持关键信息。为此，我们提出 AutoFocusFormer（AFF），一种基于局部注意力机制的Transformer图像识别主干网络，通过学习保留对任务最为重要的像素，实现自适应下采样。由于自适应下采样生成的像素在图像平面上呈非规则分布，我们摒弃了传统的网格结构，转而设计了一种新型基于点的局部注意力模块。该模块由一个平衡聚类模块和一个可学习的邻域合并模块协同支持，能够为当前最先进的分割头提供点式表示。实验结果表明，我们的 AutoFocusFormer（AFF）在与基线模型规模相近的情况下，性能显著优于现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供