17일 전

DUET: 대조적 제로샷 학습을 위한 다중모달 의미 기반 설정

Zhuo Chen, Yufeng Huang, Jiaoyan Chen, Yuxia Geng, Wen Zhang, Yin Fang, Jeff Z. Pan, Huajun Chen
DUET: 대조적 제로샷 학습을 위한 다중모달 의미 기반 설정
초록

제로샷 학습(ZSL)은 훈련 과정에서 한 번도 등장하지 않은 미관측 클래스의 레이블을 예측하는 것을 목표로 한다. 제로샷 이미지 분류에서 가장 효과적이고 널리 사용되는 의미 정보 중 하나는 클래스 수준의 시각적 특징에 대한 주석인 속성(attribute)이다. 그러나 기존의 방법들은 세밀한 시각적 차이를 구분하지 못하는 경향이 있으며, 이는 세밀한 레이블의 부족뿐만 아니라 속성의 불균형과 공존 현상 때문일 수 있다. 본 논문에서는 사전 훈련된 언어 모델(PLM)로부터 잠재적 의미 지식을 자가지도 다모달 학습 기반으로 통합하는 트랜스포머 기반의 종단 간(end-to-end) ZSL 방법인 DUET을 제안한다. 구체적으로, (1) 이미지로부터 의미 속성을 분리하는 모델의 능력을 탐구하기 위해 크로스모달 의미 기반 네트워크를 개발하였으며, (2) 속성의 공존 및 불균형에 대응하여 세밀한 시각적 특징에 대한 구분 능력을 강화하기 위해 속성 수준의 대조 학습 전략을 도입하였으며, (3) 다중 모달 목표를 고려하기 위해 다중 작업 학습 정책을 제안하였다. 실험 결과, 제안한 DUET은 세 가지 표준 ZSL 벤치마크와 지식 그래프를 갖춘 ZSL 벤치마크에서 최신 기술(SOTA) 수준의 성능을 달성함을 확인하였다. 또한, 모델의 구성 요소들은 효과적이며, 예측 결과는 해석 가능함을 확인하였다.