2달 전

YOLO-World: 실시간 오픈-어휘 객체 검출

Tianheng Cheng; Lin Song; Yixiao Ge; Wenyu Liu; Xinggang Wang; Ying Shan
YOLO-World: 실시간 오픈-어휘 객체 검출
초록

You Only Look Once (YOLO) 시리즈의 탐지기는 효율적이고 실용적인 도구로 자리매김하였습니다. 그러나 사전 정의된 훈련 객체 범주에 의존하는 특성 때문에 개방형 시나리오에서의 활용성이 제한됩니다. 이 한계를 극복하기 위해, 우리는 비전-언어 모델링과 대규모 데이터셋에서的事前训练을 통해 YOLO를 개선하여 다양한 객체를 사전 학습하지 않은 상태에서도 효율적으로 탐지할 수 있는 YOLO-World라는 혁신적인 접근법을 소개합니다. 구체적으로, 우리는 시각-언어 경로 집합망(Re-parameterizable Vision-Language Path Aggregation Network, RepVL-PAN)과 지역-텍스트 대조 손실(region-text contrastive loss)을 제안하여 시각적 정보와 언어적 정보 간의 상호작용을 촉진합니다. 우리의 방법은 다양한 객체를 사전 학습 없이도 높은 효율성을 유지하며 우수한 성능을 발휘합니다. 어려운 LVIS 데이터셋에서 YOLO-World는 V100 GPU에서 52.0 FPS로 35.4 AP를 달성하였으며, 이는 정확성과 속도 면에서 많은 최신 기술들을 능가합니다. 또한, 미세 조정(fine-tuned)된 YOLO-World는 객체 탐지와 개방형 어휘 인스턴스 분할 등의 여러 하류 작업에서 뛰어난 성능을 보여줍니다.注:在翻译中,"事前训练"(pre-training)被误译为中文,正确的韩文翻译应为 "사전 학습". 下面是修正后的版本:You Only Look Once (YOLO) 시리즈의 탐지기는 효율적이고 실용적인 도구로 자리매김하였습니다. 그러나 사전 정의된 훈련 객체 범주에 의존하는 특성 때문에 개방형 시나리오에서의 활용성이 제한됩니다. 이 한계를 극복하기 위해, 우리는 비전-언어 모델링과 대규모 데이터셋에서의 사전 학습을 통해 YOLO를 개선하여 다양한 객체를 사전 학습하지 않은 상태에서도 효율적으로 탐지할 수 있는 YOLO-World라는 혁신적인 접근법을 소개합니다. 구체적으로, 우리는 시각-언어 경로 집합망(Re-parameterizable Vision-Language Path Aggregation Network, RepVL-PAN)과 지역-텍스트 대조 손실(region-text contrastive loss)을 제안하여 시각적 정보와 언어적 정보 간의 상호작용을 촉진합니다. 우리의 방법은 다양한 객체를 사전 학습 없이도 높은 효율성을 유지하며 우수한 성능을 발휘합니다. 어려운 LVIS 데이터셋에서 YOLO-World는 V100 GPU에서 52.0 FPS로 35.4 AP를 달성하였으며, 이는 정확성과 속도 면에서 많은 최신 기술들을 능가합니다. 또한, 미세 조정(fine-tuned)된 YOLO-World는 객체 탐지와 개방형 어휘 인스턴스 분할 등의 여러 하류 작업에서 뛰어난 성능을 보여줍니다.

YOLO-World: 실시간 오픈-어휘 객체 검출 | 최신 연구 논문 | HyperAI초신경