
오픈-보이지 않는 인식(open-vocabulary recognition)의 도전 과제는 모델이 적용되는 새로운 카테고리에 대해 아무런 정보를 갖지 못한다는 점에 있다. 기존 연구들은 다양한 방법을 제안하여 카테고리에 대한 단서를 모델에 통합하고자 했다. 예를 들어, 소수 샘플에 대한 미세 조정(few-shot fine-tuning)을 수행하거나, 비전-언어 모델(Vision-Language Models)에 카테고리 이름 또는 텍스트 설명을 제공하는 방식이다. 그러나 미세 조정은 시간이 오래 걸리며, 일반화 능력을 저하시키는 문제가 있다. 또한 텍스트 설명은 모호할 수 있으며, 시각적 세부 정보를 정확히 전달하지 못할 수 있다. 본 논문은 텍스트 설명과 예시 이미지로 구성된 다중 모달 단서를 활용하는 새로운 관점에서 오픈-보이지 않는 인식 문제를 해결한다. 제안하는 방법인 OVMR(Optimized Visual-Textual Multi-modal Representation)는 더 강력한 카테고리 단서 통합을 위해 두 가지 혁신적인 구성 요소를 도입한다. 먼저, 이미지 예시를 동적으로 텍스트 설명과 보완함으로써 다중 모달 분류기를 생성한다. 이후, 단일 모달 분류기와 다중 모달 분류기를 융합하기 위해 선호도 기반의 정밀화 모듈을 적용하여, 저품질의 예시 이미지나 텍스트 설명으로 인한 문제를 완화한다. 제안한 OVMR은 플러그 앤 플레이(Plug-and-Play) 모듈로 설계되어, 인터넷에서 무작위로 크롤링한 예시 이미지와도 잘 작동한다. 광범위한 실험을 통해 OVMR의 뛰어난 성능이 입증되었으며, 다양한 시나리오와 설정에서 기존 방법들을 능가함을 보였다. 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: \href{https://github.com/Zehong-Ma/OVMR}{https://github.com/Zehong-Ma/OVMR}.