11일 전

다중 레이블 분류를 위한 의미 그래프 임베딩을 활용한 다중 모달리티 어텐션

Renchun You, Zhiyao Guo, Lei Cui, Xiang Long, Yingze Bao, Shilei Wen
다중 레이블 분류를 위한 의미 그래프 임베딩을 활용한 다중 모달리티 어텐션
초록

다중 레이블 이미지 및 영상 분류는 컴퓨터 비전 분야에서 핵심적이지만 도전적인 과제이다. 주요 과제는 레이블 간의 공간적 또는 시간적 의존성을 포착하고, 각 클래스에 대한 구분 가능한 특징의 위치를 탐지하는 데 있다. 이러한 과제를 극복하기 위해, 의미적 그래프 임베딩을 활용한 다중 모달 주의(attention) 기법을 제안한다. 구축된 레이블 그래프 기반으로, 레이블 간 관계를 명시적으로 활용하기 위해 인접성 기반 유사도 그래프 임베딩 방법을 제안하며, 이를 통해 의미적 레이블 임베딩을 학습한다. 이후 학습된 레이블 임베딩을 기반으로 새로운 다중 모달 주의 맵을 생성한다. MS-COCO와 NUS-WIDE라는 두 개의 다중 레이블 이미지 분류 데이터셋에서 수행한 실험 결과, 제안한 방법이 기존 최고 성능(SOTA) 기법들을 모두 상회함을 확인하였다. 또한, 대규모 다중 레이블 영상 분류 데이터셋인 YouTube-8M Segments에서도 제안 방법을 검증하였으며, 평가 결과를 통해 본 방법의 일반화 능력이 입증되었다.

다중 레이블 분류를 위한 의미 그래프 임베딩을 활용한 다중 모달리티 어텐션 | 최신 연구 논문 | HyperAI초신경