17일 전

TransNeXt: 비전 트랜스포머를 위한 강건한 중심시각 시각 인지

Dai Shi
TransNeXt: 비전 트랜스포머를 위한 강건한 중심시각 시각 인지
초록

잔차 연결(Residual connections)에서 발생하는 깊이 저하(depth degradation) 현상으로 인해, 정보 교환을 위한 계층 쌓기(layer stacking)에 의존하는 많은 효율적인 비전 트랜스포머 모델들은 충분한 정보 혼합을 형성하지 못하며, 이로 인해 자연스럽지 않은 시각 인식이 발생한다. 본 논문에서는 이 문제를 해결하기 위해, 생물학적 중심시각(foveal vision)과 지속적인 눈 움직임을 모방한 생체모사 설계 기반의 토큰 믹서인 Aggregated Attention을 제안한다. 이는 특징 맵 상의 각 토큰이 전역적 인지(global perception)를 갖도록 하면서도, 정보 교환을 위한 계층 쌓기에 의존하지 않는다. 또한, 전통적인 쿼리(query)와 키(key)와 상호작용하는 학습 가능한 토큰을 도입하여, 쿼리와 키 간의 유사성에만 의존하는 것이 아니라, 유사도 행렬의 생성을 더욱 다양하게 만든다. 이러한 방식은 깊이 저하를 효과적으로 회피하고 자연스러운 시각 인식을 달성할 수 있다. 더불어, GLU(Gated Linear Unit)와 SE(SE block) 메커니즘 사이의 격차를 메우는 컨볼루션형 GLU(Convolutional GLU)를 제안한다. 이는 각 토큰이 가장 가까운 이웃 이미지 특징을 기반으로 채널 주의력(channel attention)을 가지게 하여 국소 모델링 능력과 모델의 강건성을 향상시킨다. Aggregated Attention과 Convolutional GLU를 결합하여 새로운 비전 백본인 TransNeXt를 설계하였다. 광범위한 실험을 통해 TransNeXt가 다양한 모델 크기에서 최신 기술 수준(SOTA)의 성능을 달성함을 입증하였다. 해상도 $224^2$에서 TransNeXt-Tiny는 ImageNet 정확도 84.0%를 기록하며, 파라미터 수가 69% 적은 ConvNeXt-B를 초월하였다. TransNeXt-Base는 해상도 $384^2$에서 ImageNet 정확도 86.2%, ImageNet-A 정확도 61.6%, COCO 객체 탐지 mAP 57.1, ADE20K 세그멘테이션 mIoU 54.7을 달성하여, 뛰어난 전반적인 성능을 입증하였다.

TransNeXt: 비전 트랜스포머를 위한 강건한 중심시각 시각 인지 | 최신 연구 논문 | HyperAI초신경