2달 전

설명된 객체 검출: 유연한 표현을 통한 객체 검출의 해방

Xie, Chi ; Zhang, Zhao ; Wu, Yixuan ; Zhu, Feng ; Zhao, Rui ; Liang, Shuang
설명된 객체 검출: 유연한 표현을 통한 객체 검출의 해방
초록

언어 정보를 기반으로 객체를 감지하는 것은 오픈-보카브러리 객체 검출(OVD)과 지시 표현 이해(REC)를 포함하는 인기 있는 작업입니다. 본 논문에서는 OVD의 범주 이름을 유연한 언어 표현으로 확장하고 REC의 사전 존재하는 객체만을 바인딩하는 한계를 극복하여, 이를 더 실용적인 환경인 설명된 객체 검출(DOD)로 발전시킵니다. 우리는 $D^3$ (Description Detection Dataset)을 구축함으로써 DOD 연구의 기초를 마련하였습니다. 이 데이터셋은 짧은 범주 이름부터 긴 설명까지 유연한 언어 표현을 특징으로 하며, 모든 이미지에서 모든 설명된 객체를 누락 없이 주석화하였습니다.$D^3$에서 이전 최고 수준(SOTA) 방법들을 평가한 결과, 현재 REC, OVD 및 양쪽 기능을 수행하는 방법들에서 실패하는 몇 가지 문제점을 발견하였습니다. REC 방법들은 신뢰도 점수, 부정적 사례 거부, 다중 대상 시나리오 등에서 어려움을 겪고 있으며, OVD 방법들은 길고 복잡한 설명에 대한 제약을 안고 있습니다. 최근 양쪽 기능을 수행하는 방법들도 REC와 OVD 작업에 대해 분리된 학습 절차와 추론 전략 때문에 DOD에서 잘 작동하지 않습니다.위의 발견들을 바탕으로, 우리는 학습 데이터를 재구성하고 이진 분류 하위 작업을 도입하여 REC 방법들을 크게 개선하는 기준 모델을 제안합니다. 이 모델은 기존 방법들을 능가하며 성능 향상을 보였습니다. 데이터와 코드는 https://github.com/shikras/d-cube에서 제공되며 관련 연구들은 https://github.com/Charles-Xie/awesome-described-object-detection에서 추적됩니다.

설명된 객체 검출: 유연한 표현을 통한 객체 검출의 해방 | 최신 연구 논문 | HyperAI초신경