Command Palette
Search for a command to run...
온라인 튜토리얼 | 객체 감지, "글로벌 인식" 시대로 진입: 청화대학교 등, YOLOv13 출시, 속도와 정확도 모두 혁신 달성

자율주행, 산업 품질 검사, 보안 모니터링과 같이 "밀리초 수준의 응답 속도"가 요구되는 애플리케이션에서 실시간 객체 감지는 여전히 매우 까다로운 기술 분야입니다. 지난 10년 동안 YOLO 시리즈는 가볍고 효율적인 아키텍처 덕분에 이 분야의 주류 솔루션으로 자리매김했습니다. 초기 YOLO부터 최근 YOLOv11과 YOLOv12에 이르기까지, 이 모델은 속도와 정확도 사이에서 새로운 균형점을 끊임없이 모색해 왔습니다.
그러나 여러 차례의 진화를 거쳐도,YOLO 시리즈의 기본 메커니즘은 여전히 공통적인 병목 현상에 직면해 있습니다.컨볼루션처럼 고정된 수용 필드 내에서만 지역적 집계를 수행하거나, 셀프 어텐션처럼 수용 필드를 확장할 수 있지만, 높은 계산 비용으로 인해 실제 배치에서는 "지역화"되어야 하므로 진정한 전역적 관점을 잃게 됩니다. 더 중요한 것은,셀프 어텐션은 본질적으로 여전히 픽셀 쌍 간의 관계를 모델링하고 있으며, "이진 상관 관계"만 표현할 수 있기 때문에 장면에서 더 복잡한 다대다 의미 구조를 포착하기 어렵습니다.이러한 구조는 모델이 혼잡한 장면, 세분화된 객체 또는 매우 복잡한 시각적 관계를 이해하는 데 필수적입니다.
*수용 영역: 시각 경로에서 망막의 광수용체(막대 세포와 원뿔 세포)는 빛 신호를 수신하여 신경 신호로 변환하고, 시각 피질의 외측슬상핵 세포와 신경절 세포에 영향을 미칩니다. 이러한 신경절 세포의 자극 영역을 수용 영역이라고 합니다. 감각의 종류에 따라 수용 영역의 특성과 크기가 다릅니다.
이것이 기존 YOLO 아키텍처가 복잡한 시나리오에 직면했을 때 종종 성능 병목 현상에 직면하는 이유입니다. 즉, 장거리 종속성을 완전히 이해하지 못하거나 여러 규모에 걸쳐 깊은 의미적 관계를 표현하는 데 어려움을 겪습니다.
이 오래된 문제에 대한 대응으로,청화대학교, 타이위안 이공대학교, 시안 교통대학교 및 기타 대학으로 구성된 공동 연구팀은 이진법에서 진정한 고차 구조로 "상관관계 모델링"을 확장한 새로운 객체 감지 모델인 YOLOv13을 제안했습니다.연구팀은 핵심 구성 요소인 HyperACE(Hypergraph-based Adaptive Correlation Enhancement)를 도입했습니다. HyperACE는 다중 스케일 피처 맵의 픽셀을 정점으로 처리하고 학습 가능한 하이퍼에지 구성 요소를 통해 정점 간의 고차 상관 관계를 적응적으로 탐색합니다.이후, 고차 상관관계에 기반한 선형 복잡도를 갖는 정보 전달 모듈을 사용하여 다중 스케일 특징을 효과적으로 통합하여 복잡한 장면에서의 시각적 인식을 구현합니다. 또한, HyperACE는 저차 상관관계 모델링을 통합하여 더욱 포괄적인 시각적 인식을 구현합니다.
HyperACE를 기반으로 YOLOv13은 FullPAD(Full-Pipeline Aggregation-and-Distribution)를 추가로 제안했습니다.이 모델은 먼저 전역적 규모로 관련성 향상을 수행한 후, 향상된 특징을 백본, 목, 머리의 각 단계에 분배하여 "고차 의미론"을 전체 감지 프로세스에 적용하여 그래디언트 흐름을 개선하고 전반적인 성능을 향상시킵니다. 또한, 저자들은 기존의 대용량 합성곱 커널을 더 가볍고 깊이별 분리 가능한 합성곱 모듈로 대체하여 정확도를 유지하면서 매개변수 및 계산 비용을 줄였습니다.
최종 결과는 소형 모델(N 시리즈)부터 대형 모델까지YOLOv13은 MS COCO에 비해 상당한 개선을 이루어, 더 적은 매개변수와 FLOP로 최첨단 감지 성능을 달성했습니다.그 중 YOLOv13-N은 YOLOv11-N에 비해 mAP가 3.01 TP3T 향상되었고, YOLOv12-N에 비해 1.51 TP3T 향상되었습니다.
현재 HyperAI 웹사이트의 "튜토리얼" 섹션에서 "Yolov13 원클릭 배포" 튜토리얼을 확인하실 수 있습니다. 아래 링크를 클릭하시면 원클릭 배포 튜토리얼을 경험하실 수 있습니다. ⬇️
튜토리얼 링크:
관련 논문 보기:
데모 실행
1. hyper.ai 홈페이지에 접속한 후, "Yolov13 원클릭 배포"를 선택하거나, "튜토리얼" 페이지로 이동하여 "이 튜토리얼을 온라인으로 실행"을 선택하세요.



2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.
참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

3. "NVIDIA GeForce RTX 5090" 및 "PyTorch" 이미지를 선택하고 필요에 따라 "Pay As You Go" 또는 "Daily Plan/Weekly Plan/Monthly Plan"을 선택한 다음 "Continue job execution"을 클릭합니다.


4. 리소스 할당을 기다리세요. 첫 번째 복제에는 약 3분이 소요됩니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆의 이동 화살표를 클릭하여 데모 페이지로 이동하세요.

효과 시연
데모 실행 페이지에 들어간 후 이미지/비디오를 업로드하고 "객체 감지"를 클릭하여 데모를 실행하세요.
매개변수 설명:
* 모델: yolov13n.pt(나노), yolov13s.pt(소형), yolov13l.pt(대형), yolov13x.pt(초대형). 모델이 클수록 일반적으로 정확도(mAP)가 높지만, 매개변수 수, 계산 비용(FLOP)이 더 많고 추론 시간도 더 깁니다.
* 신뢰 임계값: 신뢰 임계값.
* IoU 임계값: NMS에 사용되는 IoU(Intersection over Union) 임계값입니다.
* 이미지당 최대 감지 수: 이미지당 감지 상자의 최대 수입니다.
편집자는 테스트를 위해 "yolov13s.pt" 모델을 예로 사용했으며, 그 결과는 아래와 같습니다.

위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!
튜토리얼 링크: