2달 전

Weakly Supervised Object Localization을 위한 생성적 프롬프트 모델

Yuzhong Zhao; Qixiang Ye; Weijia Wu; Chunhua Shen; Fang Wan
Weakly Supervised Object Localization을 위한 생성적 프롬프트 모델
초록

약한 감독 하의 객체 위치 추정(Weakly Supervised Object Localization, WSOL)은 이미지 카테고리 라벨로부터 객체 위치 모델을 학습할 때 여전히 도전적인 문제입니다. 기존 방법들은 차별적으로 활성화 모델을 훈련시키면서 대표적이지만 덜 차별적인 객체 부분들을 무시합니다. 본 연구에서는 이러한 문제를 해결하기 위해 생성적 프롬프트 모델(Generative Prompt Model, GenPromp)을 제안합니다. WSOL을 조건부 이미지 노이즈 제거 절차로 정식화하여 덜 차별적인 객체 부분들을 위치 추정하는 첫 번째 생성 파이프라인을 정의합니다. 훈련 과정에서 GenPromp는 이미지 카테고리 라벨을 학습 가능한 프롬프트 임베딩으로 변환하여, 생성 모델에 입력되어 노이즈가 포함된 입력 이미지를 조건부로 복원하고 대표적인 임베딩을 학습합니다. 추론 과정에서는 enPromp가 오프더셀프 비전-언어 모델에서 쿼리한 차별적 임베딩과 대표적 임베딩을 결합하여, 대표성과 차별성을 모두 갖춘 임베딩을 생성합니다. 최종적으로 이 결합된 임베딩은 다중 스케일의 고품질 주목도 맵을 생성하는데 사용되며, 이는 전체 객체 범위를 위치 추정하는 데 도움을 줍니다. CUB-200-2011 및 ILSVRC 데이터셋에서 수행된 실험 결과, GenPromp는 각각 최상의 차별적 모델보다 5.2%와 5.6%(Top-1 Loc) 더 우수한 성능을 보였으며, 생성 모델을 활용한 WSOL에 대한 견고한 기준점을 설정하였습니다. 코드는 https://github.com/callsys/GenPromp에서 확인할 수 있습니다.

Weakly Supervised Object Localization을 위한 생성적 프롬프트 모델 | 최신 연구 논문 | HyperAI초신경