12일 전

다중 레이블 제로샷 학습을 위한 공유 다중 어텐션 프레임워크

{ Ehsan Elhamifar, Dat Huynh}
다중 레이블 제로샷 학습을 위한 공유 다중 어텐션 프레임워크
초록

본 연구에서는 다중 레이블 제로샷 학습을 위한 공유 다중 주의 모델을 개발한다. 우리는 이미지 내에서 다수의 학습된 레이블과 미학습된 레이블을 인식하기 위한 주의 메커니즘을 설계하는 것은 비-trivial한 과제라고 주장한다. 그 이유는 미학습된 레이블의 위치를 지도하는 훈련 신호가 없으며, 수천 개의 가능한 레이블 중에서 이미지에 실제로 존재하는 레이블은 몇 개에 불과하기 때문이다. 따라서 미학습 레이블에 대해 주의를 생성하는 대신, 이 레이블들이 미리 학습된 공유 주의 영역 중에서 선택하도록 하되, 이러한 공유 주의는 본 연구에서 제안하는 새로운 손실 함수를 통해 레이블에 의존하지 않으며, 오직 관련 영역/전경 영역에만 집중하도록 학습된다. 마지막으로, 선택된 주의 정보를 기반으로 레이블을 구별할 수 있는 호환성 함수를 학습한다. 또한, 주의가 다양한 관련 이미지 영역에 집중하도록 유도하면서 모든 주의 특징을 효과적으로 활용할 수 있도록 하는 세 가지 구성 요소로 이루어진 새로운 손실 함수를 제안한다. 광범위한 실험을 통해 본 방법이 NUS-WIDE 및 대규모 Open Images 데이터셋에서 각각 기존 최고 성능 대비 F1 스코어를 2.9%, 1.4% 향상시켰음을 입증한다.

다중 레이블 제로샷 학습을 위한 공유 다중 어텐션 프레임워크 | 최신 연구 논문 | HyperAI초신경