
초록
본 연구는 객체 검출 모델 시리즈인 YOLO (You Only Look Once)의 최신 버전인 YOLOv11의 구조 분석을 제시합니다. 우리는 C3k2 (Cross Stage Partial with kernel size 2) 블록, SPPF (Spatial Pyramid Pooling - Fast), C2PSA (Parallel Spatial Attention를 사용한 Convolutional 블록) 구성 요소 등과 같은 모델의 구조적 혁신을 검토하며, 이들 구성 요소가 특징 추출 강화 등을 통해 모델 성능을 여러 방면에서 개선하는 역할을 합니다. 논문에서는 YOLOv11이 객체 검출, 인스턴스 세그멘테이션, 포즈 추정, 그리고 회전된 객체 검출(OBB) 등의 다양한 컴퓨터 비전 작업에서 확장된 기능을 탐구합니다. 우리는 이전 버전들과 비교하여 평균 정밀도(mAP)와 계산 효율성 측면에서의 성능 향상을 검토하며, 특히 매개변수 수와 정확도 간의 균형에 초점을 맞춥니다. 또한 본 연구는 나노부터 엑스트라-라지까지 다양한 모델 크기에 걸쳐 YOLOv11의 유연성을 논하며, 에지 디바이스부터 고성능 컴퓨팅 환경까지 다양한 응용 요구사항을 충족시키는 능력을 설명합니다. 우리의 연구는 YOLOv11이 객체 검출 분야 전반에서 차지하는 위치와 실시간 컴퓨터 비전 응용 프로그램에 미칠 수 있는 잠재적 영향에 대한 통찰력을 제공합니다.