18일 전

다중모달 프롬프트 기반의 세부 시각 분류 탐구

Xin Jiang, Hao Tang, Junyao Gao, Xiaoyu Du, Shengfeng He, Zechao Li
다중모달 프롬프트 기반의 세부 시각 분류 탐구
초록

세부 시각 분류(Fine-grained visual classification, FGVC)는 보다 넓은 카테고리 내부의 세부 하위 범주를 구분하는 작업으로, 클래스 간 미세한 차이와 클래스 내 큰 변동성으로 인해 도전적인 과제를 안고 있다. 그러나 기존의 접근 방식은 주로 단일 모달의 시각적 개념에 집중하고 있다. 최근 사전 훈련된 시각-언어 모델의 발전은 다양한 고수준 시각 작업에서 뛰어난 성능을 보여주었지만, 이러한 모델이 FGVC 작업에 얼마나 적합한지는 여전히 불확실한 상태이다. 본 논문에서는 교차 모달 기술의 잠재력을 극대화하여 FGVC 과제를 해결하고, 대조적 시각-언어 사전 훈련(Contrastive Language-Image Pretraining, CLIP) 모델 기반의 새로운 다중 모달 프롬프팅 솔루션인 MP-FGVC를 제안한다. 제안하는 MP-FGVC는 다중 모달 프롬프팅 기법과 다중 모달 적응 기법으로 구성된다. 전자는 하위 카테고리 특화 시각 프롬프트(Subcategory-specific Vision Prompt, SsVP)와 차이 인지형 텍스트 프롬프트(Discrepancy-aware Text Prompt, DaTP)를 포함하며, 시각적 및 언어적 관점에서 하위 카테고리 간의 특이한 차이점을 명시적으로 강조한다. 후자는 시각적 프롬프트와 텍스트 프롬프트 요소를 동일한 의미 공간에 정렬함으로써, 시각-언어 융합 모듈(Vision-Language Fusion Module, VLFM)을 통해 교차 모달 협업 추론을 촉진함으로써 FGVC 성능을 추가로 향상시킨다. 더불어, 사전 훈련된 CLIP 모델의 잠재력을 최대한 활용하고 FGVC에 대한 효율적인 적응을 가속화하기 위해 MP-FGVC에 대해 이단계 최적화 전략을 특화하였다. 네 개의 FGVC 데이터셋에서 수행된 광범위한 실험을 통해 본 논문의 MP-FGVC가 효과적임을 입증하였다.

다중모달 프롬프트 기반의 세부 시각 분류 탐구 | 최신 연구 논문 | HyperAI초신경