YOLOv10: 실시간 엔드투엔드 객체 검출

최근 몇 년 동안 YOLOs는 계산 비용과 검출 성능 사이의 효과적인 균형을 이루고 있어 실시간 객체 검출 분야에서 주요 패러다임으로 부상했습니다. 연구자들은 YOLOs의 구조 설계, 최적화 목표, 데이터 증강 전략 등을 탐구하여 눈에 띄는 진전을 이룩하였습니다. 그러나 후처리를 위해 비최대 억제(NMS)에 의존하는 것은 YOLOs의 단말-to-단말 배포를 방해하고 추론 지연 시간에 부정적인 영향을 미칩니다. 또한, YOLOs의 다양한 구성 요소 설계가 체계적이고 철저한 검토를 받지 못하여 계산 중복성이 두드러지고 모델의 능력을 제한합니다. 이로 인해 효율성이 최적화되지 않으며 성능 개선 여지가 상당히 큽니다. 본 연구에서는 후처리와 모델 구조 측면에서 YOLOs의 성능-효율성 경계를 더욱 발전시키는 것을 목표로 합니다. 이를 위해 먼저 NMS 없이 YOLOs를 훈련하기 위한 일관된 듀얼 할당 방법을 제시합니다. 이 방법은 경쟁력 있는 성능과 낮은 추론 지연 시간을 동시에 제공합니다. 또한, 효율성과 정확성을 고려한 종합적인 모델 설계 전략을 소개합니다. 우리는 효율성과 정확성 측면에서 YOLOs의 다양한 구성 요소를 체계적으로 최적화하여 계산 부담을 크게 줄이고 능력을 향상시켰습니다. 이러한 노력의 결과로 실시간 end-to-end 객체 검출을 위한 새로운 세대의 YOLO 시리즈인 YOLOv10이 탄생하였습니다. 광범위한 실험 결과, YOLOv10은 다양한 모델 규모에서 최신 수준의 성능과 효율성을 달성함을 보여주었습니다. 예를 들어, COCO에서 유사한 AP(Average Precision)를 가진 RT-DETR-R18보다 우리의 YOLOv10-S는 1.8배 더 빠르며, 2.8배 적은 매개변수와 FLOPs(Floating Point Operations Per Second)를 가지고 있습니다. 또한, 같은 성능을 유지하면서 YOLOv9-C보다 YOLOv10-B는 46% 적은 지연 시간과 25% 적은 매개변수를 가지고 있습니다.