11일 전

오픈월드 텍스트 지정 객체 카운팅

Niki Amini-Naieni, Kiana Amini-Naieni, Tengda Han, Andrew Zisserman
오픈월드 텍스트 지정 객체 카운팅
초록

우리의 목표는 이미지 내에서 텍스트 설명으로 지정된 대상 객체 클래스에 대해 개방형 세계(open-world) 객체 수량을 셀 수 있는 것으로, 이는 객체 클래스에 대한 사전 지식 없이도 가능해야 한다. 이를 위해 우리는 사전 훈련된 텍스트-이미지 결합 표현 위에 트랜스포머 디코더 카운팅 헤드를 사용하는 클래스 무관(class-agnostic), 단계별(single-stage) 모델인 CounTX를 제안한다. CounTX는 이미지와 대상 객체 클래스에 대한 텍스트 설명만을 입력으로 받아, 어떤 클래스의 인스턴스라도 수량을 셀 수 있으며, 엔드투엔드(end-to-end)로 훈련이 가능하다. 본 연구에서는 다음과 같은 추가 기여도 이루어졌다: (i) 기존의 개방형 세계 객체 수량 방법과 비교하여, 텍스트를 이용해 작업을 지정하는 방법들에 대해 FSC-147 벤치마크에서 모든 측정 기준에서 최신 기술(state-of-the-art)을 초월함을 보였다; (ii) 객체 클래스를 단순한 클래스 이름을 넘어서 더 구체적이고 세부적인 언어로 설명할 수 있도록 개선된 FSC-147-D를 제안하고 공개한다. FSC-147-D와 코드는 https://www.robots.ox.ac.uk/~vgg/research/countx 에서 제공된다.

오픈월드 텍스트 지정 객체 카운팅 | 최신 연구 논문 | HyperAI초신경