
초록
본 연구에서는 이미지-캡션 쌍을 기반으로 알려진 클래스 집합과 함께 새로운 객체 클래스를 탐지하는 오픈 보카빌러리 객체 탐지 방법을 제안합니다. 이는 먼저 위치 안내를 받은 이미지-캡션 매칭 기술을 사용하여 새로운 클래스와 알려진 클래스 모두에 대한 클래스 라벨을 약간의 감독 아래에서 학습하고, 두 번째로 알려진 클래스 주석을 사용하여 객체 탐지 작업에 특화된 모델을 학습하는 두 단계 훈련 접근 방식입니다. 우리는 간단한 언어 모델이 대규모 문맥화된 언어 모델보다 새로운 객체를 탐지하는 데 더 잘 맞는다는 것을 보여줍니다. 또한, 이미지-캡션 쌍 정보를 더 효과적으로 활용하기 위한 일관성 규제 기술을 소개합니다. 본 방법은 데이터 효율성이 높으면서도 기존의 오픈 보카빌러리 탐지 접근 방식과 유리하게 비교됩니다. 소스 코드는 https://github.com/lmb-freiburg/locov 에서 제공됩니다.