2달 전

빠른 제로샷 이미지 태깅

Zhang, Yang ; Gong, Boqing ; Shah, Mubarak
빠른 제로샷 이미지 태깅
초록

유명한 단어 유사성 실험은 최근의 단어 벡터가 선형 벡터 오프셋을 통해 단어의 세부 언어적 규칙을 포착함을 보여주지만, 간단한 벡터 오프셋이 시각적 규칙을 얼마나 잘 인코딩할 수 있는지는 명확하지 않습니다. 본 논문에서는 특정 이미지-단어 관련성 관계를 연구합니다. 우리의 결과는 주어진 이미지에 대한 관련 태그의 단어 벡터가 비관련 태그보다 주요 방향에서 더 높은 순위를 차지함을 보여줍니다. 이 관찰에 영감을 받아, 우리는 이미지의 주요 방향을 추정하여 이미지 태깅 문제를 해결하는 방법을 제안합니다. 특히, 선형 매핑과 비선형 딥 신경망을 활용하여 입력 이미지로부터 주요 방향을 근사합니다. 이를 통해 매우 다목적으로 활용 가능한 태깅 모델을 도출하였습니다. 테스트 이미지가 주어졌을 때, 이 모델은 학습 데이터셋 크기에 상관없이 일정 시간 내에 빠르게 실행됩니다. 이 모델은 NUS-WIDE 데이터셋에서 전통적인 태깅 작업에서 우수한 성능을 보이는 데 그치지 않고, 이전에 본 적 없는 태그로 이미지를 주석화하는 작업에서도 경쟁력 있는 기준모델들을 능가합니다.

빠른 제로샷 이미지 태깅 | 최신 연구 논문 | HyperAI초신경