3달 전

TResNet: 고성능 GPU 전용 아키텍처

Tal Ridnik, Hussam Lawen, Asaf Noy, Emanuel Ben Baruch, Gilad Sharir, Itamar Friedman
TResNet: 고성능 GPU 전용 아키텍처
초록

최근 몇 년간 개발된 많은 딥러닝 모델들은 FLOPS 수치가 적거나 비슷한 수준임에도 불구하고, ResNet50보다 더 높은 ImageNet 정확도를 달성하고 있다. FLOPS는 일반적으로 네트워크 효율성의 지표로 여겨지지만, 실제 GPU 기반 학습 및 추론 성능을 측정할 때는 일반적인 ResNet50가 최근의 경쟁 모델들보다 훨씬 빠르며, 정확도 대비 처리량(throughput)의 균형이 더 우수한 경우가 많다.본 연구에서는 신경망의 정확도를 향상시키면서도 GPU 기반 학습 및 추론 효율성을 유지하는 일련의 아키텍처 개선 방안을 제안한다. 먼저 FLOPS 최적화에 의해 발생하는 성능 저하 요인들을 분석하고 논의한다. 이후 GPU의 구조적 특성과 자원을 보다 효과적으로 활용할 수 있는 대안적인 설계를 제안하며, 마지막으로 기존의 ConvNet 모델들보다 더 높은 정확도와 효율성을 갖춘 GPU 전용 모델군인 TResNet이라는 새로운 모델 패밀리를 소개한다.ResNet50와 유사한 GPU 처리량을 갖는 TResNet 모델을 사용하여 ImageNet에서 80.8%의 top-1 정확도를 달성하였다. TResNet 모델들은 또한 전이 학습 성능이 뛰어나, Stanford Cars(96.0%), CIFAR-10(99.0%), CIFAR-100(91.5%), Oxford-Flowers(99.1%)와 같은 경쟁적인 단일 레이블 분류 데이터셋에서 최고 수준의 정확도를 기록하였다. 더불어 다중 레이블 분류 및 객체 탐지 과제에서도 우수한 성능을 보였다. 구현 코드는 다음 링크에서 확인할 수 있다: https://github.com/mrT23/TResNet.