17 天前

EfficientViT:用于高分辨率密集预测的多尺度线性注意力

Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han
EfficientViT:用于高分辨率密集预测的多尺度线性注意力
摘要

高分辨率密集预测技术推动了诸多引人注目的实际应用,例如计算摄影、自动驾驶等。然而,现有先进高分辨率密集预测模型庞大的计算开销,使得其在硬件设备上的部署面临巨大挑战。本文提出 EfficientViT,一种新型高分辨率视觉模型家族,其核心创新在于引入了多尺度线性注意力机制。与以往依赖复杂softmax注意力、硬件效率低下的大核卷积或结构复杂的拓扑设计来实现优异性能的模型不同,EfficientViT 通过轻量且硬件友好的操作,即可实现全局感受野与多尺度学习(高分辨率密集预测任务中两个关键优势特性)。因此,EfficientViT 在多种硬件平台(包括移动CPU、边缘GPU和云端GPU)上,均在显著提升推理速度的同时,相较以往最先进模型实现了显著的性能提升。在 Cityscapes 数据集上,EfficientViT 在不损失精度的前提下,相较于 SegFormer 和 SegNeXt,分别实现了最高达 13.9 倍和 6.2 倍的 GPU 推理延迟降低。在超分辨率任务中,EfficientViT 相较 Restormer 实现了最高 6.4 倍的加速,同时在 PSNR 指标上提升 0.11 dB。在 Segment Anything 任务中,EfficientViT 在 A100 GPU 上的吞吐量达到 Restormer 的 48.9 倍,同时在 COCO 数据集上实现了略优的零样本实例分割性能。