2달 전

다중 모드 사이클 일관성 일반화 제로샷 학습

Rafael Felix; B. G. Vijay Kumar; Ian Reid; Gustavo Carneiro
다중 모드 사이클 일관성 일반화 제로샷 학습
초록

일반화된 제로 샷 학습(GZSL)에서 클래스 집합은 관찰된 클래스와 미관찰된 클래스로 나뉩니다. 훈련 과정에서는 관찰된 클래스와 미관찰된 클래스의 의미적 특징과, 관찰된 클래스의 시각적 표현만을 사용합니다. 반면에 테스트는 관찰된 클래스와 미관찰된 클래스의 시각적 표현을 모두 활용합니다. 현재의 방법들은 GZSL 문제를 해결하기 위해 시각적 공간에서 의미적 공간으로의 변환을 학습하며, 이 두 공간에서의 클래스 분포가 상대적으로 유사하다는 가정을 탐구합니다. 이러한 방법들은 종종 미관찰된 테스트 시각적 표현을 올바른 미관찰된 클래스의 의미적 특징이 아닌, 어느 관찰된 클래스의 의미적 특징으로 변환하려고 하므로 GZSL 분류 정확도가 낮아집니다. 최근에는 생성 적대 네트워크(GAN)를 이용하여 미관찰된 클래스들의 의미적 특징에서 시각적 표현을 합성하는 연구가 이루어졌습니다. 관찰된 클래스와 미관찰된 클래스의 합성된 표현은 GZSL 분류기를 훈련시키는 데 사용됩니다. 이 접근법은 GZSL 분류 정확도를 향상시키는 것으로 입증되었지만, 합성 시각적 표현이 다중 모드 사이클 일관성을 유지하면서 원래의 의미적 특징으로 재생성될 수 있다는 보장이 없습니다. 이러한 제약 조건은 합성 시각적 표현이 그들의 의미적 특징을 잘 나타내지 못하게 할 수 있습니다.본 논문에서는 GAN 훈련에 새로운 규제(regularization)를 도입하여 생성된 시각적 특징이 원래의 의미적 특징을 재구성하도록 강제하는 제약 조건을 제안합니다. 본 모델이 이 다중 모드 사이클 일관성을 유지하는 의미 호환성을 통해 훈련되면, 관찰된 클래스뿐만 아니라 더 중요한 미관찰된 클래스에 대해 더 대표적인 시각적 표현을 합성할 수 있습니다. 제안한 접근법은 여러 공개 데이터셋에서 최고의 GZSL 분류 결과를 보여주었습니다.