
오픈 어휘 객체 검출은 사전 훈련된 시각-언어 모델로부터 크게 혜택을 받았지만, 여전히 사용 가능한 검출 훈련 데이터의 양에 제한을 받고 있습니다. 검출 훈련 데이터는 웹 이미지-텍스트 쌍을 약한 감독으로 활용하여 확장할 수 있지만, 이는 이미지 레벨 사전 훈련과 비교할 만한 규모로 이루어지지 않았습니다. 여기서 우리는 자기 훈련(self-training)을 통해 검출 데이터를 확장합니다. 이 방법은 기존의 검출기를 사용하여 이미지-텍스트 쌍에 가짜 박스 주석(pseudo-box annotations)을 생성합니다. 자기 훈련을 확장하는 주요 과제는 라벨 공간(label space) 선택, 가짜 주석 필터링(pseudo-annotation filtering), 그리고 훈련 효율성(training efficiency)입니다. 우리는 이러한 과제들을 해결하기 위한 OWLv2 모델과 OWL-ST 자기 훈련 방법론을 제시합니다. OWLv2는 이미 유사한 훈련 규모(~10M 예제)에서 이전 최신 오픈 어휘 객체 검출기들의 성능을 능가합니다. 그러나 OWL-ST를 사용하면 1B 예제 이상으로 확장할 수 있으며, 이로 인해 더욱 큰 개선이 이루어집니다: L/14 아키텍처를 사용할 때, OWL-ST는 인간이 제공하지 않은 박스 주석(LVIS rare classes)에 대해 AP(Average Precision)를 31.2%에서 44.6%로 개선했습니다(상대적으로 43% 개선). OWL-ST는 이미지 분류와 언어 모델링에서 관찰된 것과 유사하게 오픈 월드 위치 결정(open-world localization)에 대한 웹 규모의 훈련을 가능하게 합니다.