11일 전
다중 레이블 분류를 위한 의미 그래프 임베딩을 활용한 다중 모달리티 어텐션
Renchun You, Zhiyao Guo, Lei Cui, Xiang Long, Yingze Bao, Shilei Wen

초록
다중 레이블 이미지 및 영상 분류는 컴퓨터 비전 분야에서 핵심적이지만 도전적인 과제이다. 주요 과제는 레이블 간의 공간적 또는 시간적 의존성을 포착하고, 각 클래스에 대한 구분 가능한 특징의 위치를 탐지하는 데 있다. 이러한 과제를 극복하기 위해, 의미적 그래프 임베딩을 활용한 다중 모달 주의(attention) 기법을 제안한다. 구축된 레이블 그래프 기반으로, 레이블 간 관계를 명시적으로 활용하기 위해 인접성 기반 유사도 그래프 임베딩 방법을 제안하며, 이를 통해 의미적 레이블 임베딩을 학습한다. 이후 학습된 레이블 임베딩을 기반으로 새로운 다중 모달 주의 맵을 생성한다. MS-COCO와 NUS-WIDE라는 두 개의 다중 레이블 이미지 분류 데이터셋에서 수행한 실험 결과, 제안한 방법이 기존 최고 성능(SOTA) 기법들을 모두 상회함을 확인하였다. 또한, 대규모 다중 레이블 영상 분류 데이터셋인 YouTube-8M Segments에서도 제안 방법을 검증하였으며, 평가 결과를 통해 본 방법의 일반화 능력이 입증되었다.