17일 전

DAMO-YOLO: 실시간 객체 탐지 설계에 관한 보고서

Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
DAMO-YOLO: 실시간 객체 탐지 설계에 관한 보고서
초록

이 보고서에서는 최신 YOLO 시리즈보다 뛰어난 성능을 달성하는 빠르고 정확한 객체 탐지 방법인 DAMO-YOLO를 제안한다. DAMO-YOLO는 신경망 아키텍처 탐색(Neural Architecture Search, NAS), 효율적인 재패러미터화된 일반화된 FPN(Reparameterized Generalized-FPN, RepGFPN), 정렬된 OTA(label assignment)를 활용한 경량 헤드, 그리고 디스틸리케이션 강화 기술을 도입하여 YOLO 기반으로 확장된 모델이다. 특히, 최대 엔트로피 원칙에 기반한 MAE-NAS 기법을 사용하여 낮은 지연(latency)과 높은 성능이라는 제약 조건 하에서 탐지 백본을 탐색하였으며, 공간 피라미드 풀링과 포커스 모듈을 갖춘 ResNet/CSP 유사 구조를 도출하였다. 네크와 헤드 설계 시에는 '큰 네크, 작은 헤드'의 원칙을 따랐다. 가속화된 퀸-퓨전(queen-fusion)을 적용한 일반화된 FPN을 도입하여 탐지기 네크를 구축하고, CSPNet을 효율적인 레이어 집계 네트워크(ELAN)와 재패러미터화 기법으로 업그레이드하였다. 또한, 탐지 헤드 크기가 탐지 성능에 미치는 영향을 조사한 결과, 단일 태스크 프로젝션 레이어만을 갖는 무거운 네크가 더 우수한 성능을 보임을 확인하였다. 또한, 라벨 할당 과정에서 발생하는 비일치 문제를 해결하기 위해 정렬된 OTA(AlignedOTA)를 제안하였으며, 성능을 더욱 향상시키기 위해 디스틸리케이션 스키마를 도입하였다. 이러한 새로운 기술들을 기반으로 다양한 규모의 모델 세트를 구축하여 다양한 응용 시나리오에 적합하도록 하였다. 일반 산업용 요구 사항을 충족시키기 위해 DAMO-YOLO-T/S/M/L 모델을 제안하였으며, 이들은 T4 GPU에서 각각 2.78/3.83/5.62/7.95ms의 지연 시간으로 COCO 데이터셋에서 43.6/47.7/50.2/51.9 mAP 성능을 달성한다. 또한 계산 능력이 제한된 엣지 디바이스를 위한 경량 모델로 DAMO-YOLO-Ns/Nm/Nl을 제안하였으며, 이들은 X86-CPU에서 각각 4.08/5.05/6.69ms의 지연 시간으로 COCO 데이터셋에서 32.3/38.2/40.5 mAP 성능을 달성한다. 제안한 일반적이고 경량화된 모델들은 각각의 적용 시나리오에서 다른 YOLO 시리즈 모델들을 능가하는 성능을 보였다.

DAMO-YOLO: 실시간 객체 탐지 설계에 관한 보고서 | 최신 연구 논문 | HyperAI초신경