OvarNet: 오픈-어휘 객체 속성 인식을 향하여

본 논문에서는 이미지에서 객체를 감지하고 그 시각적 속성을 추론하는 문제, 특히 훈련 단계에서 수동으로 주석이 제공되지 않은 객체들에 대한 문제를 다루며, 이는 오픈-보카블러리(open-vocabulary) 시나리오와 유사합니다. 이러한 목표를 달성하기 위해 다음과 같은 기여를 하였습니다: (i) 오픈-보카블러리 객체 감지와 속성 분류를 위한 단순한 두 단계 접근법인 CLIP-Attr을 제안하였습니다. 후보 객체들은 오프라인 RPN(Region Proposal Network)을 통해 먼저 제안되고, 이후 의미 범주와 속성에 대해 분류됩니다; (ii) 모든 사용 가능한 데이터셋을 결합하여 연방 학습(federated strategy) 전략을 사용해 CLIP 모델을 fine-tuning하였으며, 시각적 표현과 속성을 일치시키는데 초점을 맞추었습니다. 또한, 약간의 감독 학습(weakly supervised learning) 아래에서 자유롭게 이용할 수 있는 온라인 이미지-캡션 쌍들을 활용하는 효과를 조사하였습니다; (iii) 효율성을 추구하기 위해, 클래스 무관(class-agnostic) 객체 제안과 의미 범주 및 속성 분류를 수행하는 Faster-RCNN 타입의 모델을 지식 증류(knowledge distillation) 방식으로 end-to-end로 훈련시켰습니다. 이 모델은 텍스트 인코더로부터 생성된 분류기들을 사용합니다; 마지막으로, (iv) VAW, MS-COCO, LSA, 그리고 OVAD 데이터셋에서 광범위한 실험을 수행하였으며, 의미 범주와 속성의 인식이 시각적 장면 이해에 보완적인 역할을 한다는 점을 보여주었습니다. 즉, 객체 감지와 속성 예측을 공동으로 훈련시키는 것이 두 작업을 독립적으로 처리하는 기존 접근법보다 크게 우수함을 입증하였으며, 새로운 속성과 범주에 대한 강력한 일반화 능력을 보여주었습니다.