11일 전

다중 레이어 세마틱 표현 네트워크를 활용한 다중 라벨 이미지 분류

Xiwen Qu, Hao Che, Jun Huang, Linchuan Xu, Xiao Zheng
다중 레이어 세마틱 표현 네트워크를 활용한 다중 라벨 이미지 분류
초록

다중 레이블 이미지 분류(Multi-label image classification, MLIC)는 하나의 이미지에 여러 가능한 레이블을 할당하는 기초적이고 실용적인 과제이다. 최근 들어, 레이블 간의 상관관계를 모델링하여 레이블의 의미를 탐구하고 이미지의 의미 표현을 학습하는 깊은 합성곱 신경망(Convolutional Neural Network, CNN) 기반의 다양한 접근법이 제안되어 왔다. 본 논문은 레이블 상관관계 모델링과 의미 표현 학습의 두 가지 측면에서 기존 연구를 발전시킨다. 한편으로, 각 레이블의 국소적 의미 외에도, 여러 레이블 간에 공유되는 전반적인(글로벌) 의미를 추가로 탐색할 것을 제안한다. 다른 한편으로, 기존의 방법들은 주로 CNN의 마지막 합성곱 층에서 의미 표현을 학습하는 데 집중해 왔다. 그러나 CNN의 다양한 층은 서로 다른 수준이나 스케일의 특징을 포착하며, 각각의 구분 능력이 다름이 알려져 있다. 따라서 본 논문은 여러 합성곱 층에서 의미 표현을 학습하는 방안을 제안한다. 이를 위해, 레이블 간 상관관계를 모델링함으로써 레이블의 국소적 및 전반적 의미를 탐지하고, 주의(attention) 메커니즘을 통해 레이블의 의미 정보를 활용하여 다층에서 의미 표현을 학습하는 다층 의미 표현 네트워크(Multi-layered Semantic Representation Network, MSRN)를 설계하였다. VOC 2007, COCO, NUS-WIDE, Apparel을 포함한 네 가지 벤치마크 데이터셋에서 실시한 광범위한 실험 결과, 제안하는 MSRN이 최신 기술(SOTA) 모델들과 경쟁 가능한 성능을 보였음을 확인하였다.

다중 레이어 세마틱 표현 네트워크를 활용한 다중 라벨 이미지 분류 | 최신 연구 논문 | HyperAI초신경