2달 전

Zero-Shot Learning을 위한 심층 임베딩 모델 학습

Li Zhang; Tao Xiang; Shaogang Gong
Zero-Shot Learning을 위한 심층 임베딩 모델 학습
초록

제로샷 학습(ZSL) 모델은 객체 클래스의 텍스트/의미 설명과 객체 이미지의 시각적 표현을 가장 가까운 이웃 검색을 위해 투영할 수 있는 공동 임베딩 공간을 학습하는 데 의존합니다. 이미지 캡셔닝과 같은 다른 비전 문제에서 텍스트와 이미지 사이의 엔드투엔드 모델을 학습하는 딥 신경망이 성공했음에도 불구하고, 딥 ZSL 모델은 매우 적으며, 딥 특징 표현을 활용하지만 엔드투엔드 임베딩을 학습하지 않는 ZSL 모델보다 큰 우위를 보이지 않습니다. 본 논문에서는 딥 ZSL 모델이 성공하기 위한 핵심은 적절한 임베딩 공간을 선택하는 것이라고 주장합니다. 의미 공간이나 중간 공간으로 임베딩하는 대신, 우리는 시각적 공간을 임베딩 공간으로 사용하는 것을 제안합니다. 이는 시각적 공간에서 후속 가장 가까운 이웃 검색이 허브니스(hubness) 문제에 덜 영향을 받기 때문에 더 효과적이 될 수 있기 때문입니다. 이러한 모델 설계는 또한 여러 의미 모달리티(예: 속성과 문장 설명)가 자연스럽게 결합되고 엔드투엔드 방식으로 공동 최적화될 수 있는 메커니즘을 제공합니다. 네 개의 벤치마크에서 수행된 광범위한 실험 결과, 우리의 모델이 기존 모델들보다 유의미하게 우수함을 확인할 수 있었습니다. 코드는 https://github.com/lzrobots/DeepEmbeddingModel_ZSL 에서 제공됩니다.