라벨 그래프 슈퍼임포징을 통한 다중 레이블 분류

이미지나 동영상은 항상 여러 개체나 동작을 포함하고 있다. 다중 레이블 인식은 딥러닝 기술의 급속한 발전 덕분에 매우 뛰어난 성능을 달성해 왔다. 최근에는 그래프 컨볼루션 네트워크(GCN)가 다중 레이블 인식의 성능을 향상시키는 데 활용되고 있다. 그러나 레이블 간 상관관계를 가장 효과적으로 모델링하는 방법은 무엇인지, 그리고 레이블 시스템 인식을 통한 특징 학습을 어떻게 개선할 수 있을지는 여전히 명확하지 않다. 본 논문에서는 기존의 다중 레이블 인식을 위한 GCN+CNN 프레임워크를 다음과 두 가지 측면에서 개선하기 위해 레이블 그래프 겹침( label graph superimposing) 프레임워크를 제안한다. 첫째, 레이블 간의 통계적 동시 발생 정보로부터 구축한 레이블 그래프를 레이블에 대한 지식 사전 정보로부터 생성된 그래프에 겹쳐서 레이블 상관관계를 모델링하고, 최종적으로 겹쳐진 그래프 위에서 다층 그래프 컨볼루션을 수행하여 레이블 임베딩을 추출한다. 둘째, 전체 레이블 시스템의 임베딩을 활용하여 더 나은 표현 학습을 수행하는 방법을 제안한다. 구체적으로, GCN과 CNN 간에 얕은, 중간, 깊은 층에서 횡방향 연결(lateral connections)을 도입하여 백본 CNN에 레이블 시스템의 정보를 주입함으로써 특징 학습 과정에서 레이블 인식 능력을 향상시킨다. MS-COCO 및 Charades 데이터셋을 대상으로 실시한 광범위한 실험 결과, 제안하는 방법이 인식 성능을 크게 향상시키며, 새로운 최고 성능(SOTA)을 달성함을 확인할 수 있었다.