HyperAIHyperAI

Command Palette

Search for a command to run...

基于Transformer的语义分割中的解码器重思:一种压缩视角

Qishuai Wen Chun-Guang Li

摘要

基于Transformer的语义分割的前沿方法通常采用Transformer解码器,通过交叉注意力机制从图像嵌入中提取额外的嵌入表示,利用自注意力机制对图像嵌入或额外嵌入进行优化,并通过点积操作将图像嵌入投影到额外嵌入上。尽管这些方法取得了显著成效,但其设计多基于经验性构造,缺乏理论支撑与可解释性,从而限制了其向更系统化、原理性改进的方向发展。本文提出,语义分割与数据压缩之间存在本质联系,尤其体现在Transformer解码器与主成分分析(Principal Component Analysis, PCA)之间的深层关联。基于这一视角,我们提出一种全注意力机制、可解释的白盒解码器——用于原理性语义分割的DEcoder for PrIncipled semantiC segemenTation(DEPICT),其理论解释如下:1)自注意力操作通过优化图像嵌入,构建一个与监督信号对齐且保留最多信息的理想主子空间;2)交叉注意力操作旨在对优化后的图像嵌入进行低秩近似,期望获得该主子空间的一组标准正交基,这些基向量对应于预定义的语义类别;3)点积操作则生成紧凑的图像嵌入表示,作为最终的语义分割掩码。在ADE20K数据集上的实验结果表明,DEPICT在性能上持续优于其黑盒对应模型Segmenter,同时具备轻量化与更强鲁棒性的优势。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供