메타데이터를 활용한 웹 기반 감독 이미지 분류: 시각-세マン틱 그래프를 통한 자동 노이즈 레이블 보정

최근 들어, 비용이 많이 드는 인간 라벨링 없이도 데이터 확장을 효율적으로 수행할 수 있다는 점에서 웹리 서포티드 러닝(webly supervised learning)이 주목받고 있다. 그러나 이미지의 웹 라벨로 검색어나 해시태그를 사용할 경우, 모델의 성능을 저하시키는 막대한 노이즈가 발생한다. 특히 검색어의 의미적 모호성으로 인해 한 검색어로 검색된 이미지에는 다른 개념에 속하는 이미지가 대량 포함될 수 있다. 예를 들어, Flickr에서 ‘tiger cat’를 검색하면 고양이 이미지보다는 호랑이 이미지가 대부분 반환된다. 이러한 현실적인 노이즈 샘플은 시각 공간 내에서 명확한 시각적 의미 클러스터를 형성하는 경우가 많아, DNN이 정확한 의미 라벨을 학습하는 데 오도하게 된다. 실세계의 노이즈 라벨을 보정하기 위해서는 비용이 큰 인간 라벨링이 필수적이라고 여겨졌으나, 다행히도 우리는 메타데이터가 노이즈 없는 정확한 웹 라벨을 노동 없이 탐지할 수 있는 추가적인 지식을 제공할 수 있음을 발견했다. 이는 거대한 노이즈 라벨을 포함한 웹 데이터 내에서 자동으로 정확한 의미 지도를 제공하는 가능성을 열어준다. 본 논문에서는 시각-의미 그래프(visual-semantic graph) 기반의 자동 라벨 보정기인 VSGraph-LC를 제안한다. VSGraph-LC는 메타데이터와 정확한 라벨 개념 간의 의미 유사도를 기반으로 앵커 선택을 시작으로, 그래프 신경망(GNN)을 활용해 시각 그래프 상에서 앵커로부터 정확한 라벨을 전파한다. 실제 웹리 서포티드 러닝 데이터셋인 Webvision-1000과 NUS-81-Web에서 수행한 실험을 통해 VSGraph-LC의 효과성과 강건성을 입증하였으며, 특히 오픈셋 검증 세트에서의 우수한 성능을 보여주었다.