17일 전

EfficientViT: 고해상도 밀집 예측을 위한 다중 규모 선형 주의(Linear Attention)

Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han
EfficientViT: 고해상도 밀집 예측을 위한 다중 규모 선형 주의(Linear Attention)
초록

고해상도 밀집 예측(high-resolution dense prediction)은 계산 사진 기술, 자율 주행 등 다양한 매력적인 실세계 응용 분야를 가능하게 한다. 그러나 막대한 계산 비용으로 인해 최신 고해상도 밀집 예측 모델을 하드웨어 장치에 배포하는 것은 여전히 어려운 과제이다. 본 연구에서는 새로운 고해상도 비전 모델 세트인 EfficientViT를 제안한다. 이 모델은 혁신적인 다중 스케일 선형 주의(multi-scale linear attention)를 도입하여, 기존의 고해상도 밀집 예측 모델들이 높은 성능을 달성하기 위해 사용하던 무거운 소프트맥스 주의(softmax attention), 하드웨어 비효율적인 대규모 컨볼루션(kernel convolution), 또는 복잡한 구조적 설계에 의존하지 않고도, 전역 수용 영역(global receptive field)과 다중 스케일 학습(multi-scale learning)이라는 두 가지 바람직한 특성을 경량화되고 하드웨어 친화적인 연산으로 실현한다. 이러한 특성 덕분에 EfficientViT는 다양한 하드웨어 플랫폼(모바일 CPU, 엣지 GPU, 클라우드 GPU)에서 기존 최고 수준의 모델 대비 뛰어난 성능 향상과 함께 빠른 속도 향상을 제공한다. Cityscapes 데이터셋에서 성능 손실 없이, EfficientViT는 SegFormer 대비 최대 13.9배, SegNeXt 대비 최대 6.2배의 GPU 지연 시간(latency) 감소를 달성한다. 초해상도 이미지 복원(super-resolution) 분야에서는 Restormer 대비 최대 6.4배의 속도 향상을 제공하면서도 PSNR에서 0.11dB의 성능 향상을 기록한다. 또한 Segment Anything 작업에서는 A100 GPU에서 처리량을 48.9배 향상시키며, COCO 데이터셋에서 제로샷 인스턴스 세그멘테이션 성능은 약간 더 우수하게 달성한다.

EfficientViT: 고해상도 밀집 예측을 위한 다중 규모 선형 주의(Linear Attention) | 최신 연구 논문 | HyperAI초신경