보이지 않는 텍스트 그룹화를 통한 참조 이미지 세그멘테이션

전통적인 그룹화 기법을 활용한 이미지 세그멘테이션에 영감을 받아, 본 연구에서는 이러한 기법의 딥뉴럴넷(DNN) 대응 방식을 제안하여 언어적 참조(variant) 문제를 해결한다. 제안하는 방법은 하향식 처리를 반복적으로 수행하는 컨볼루션-순환 신경망(ConvRNN)에 의해 구동되며, 하향식 처리는 하향식 세그멘테이션 신호를 기반으로 한다. 자연어로 표현된 참조 표현(referring expression)을 입력으로 받았을 때, 본 방법은 각 픽셀에 대한 해당 표현의 관련성을 예측하고, 시각-언어 공통 임베딩(visual-textual co-embedding)을 통해 학습된 정보를 기반으로 픽셀 단위의 세그멘테이션 신호를 반영하는 '시-through-텍스트 임베딩 픽셀단위(See-through-Text Embedding Pixelwise, STEP)' 히트맵을 생성한다. ConvRNN은 STEP 히트맵을 보다 정교한 형태로 변환함으로써 하향식 근사(approximation)를 수행하며, 이 과정에서 정답 레이블로부터 얻는 분류 손실(classification loss)을 활용해 네트워크를 훈련함으로써 성능 향상을 기대할 수 있다. 정교화된 히트맵을 바탕으로, 참조 표현의 텍스트 표현을 재평가하고, 주의 분포(attention distribution)를 업데이트한 후, 다음 반복에 사용할 새로운 STEP 히트맵을 계산한다. 이러한 협업 학습(collaborative learning)을 통해 프레임워크는 점진적이고 동시에 원하는 참조 세그멘테이션 결과와 참조 문장에 대한 합리적인 주의 분포를 도출할 수 있다. 본 방법은 다른 DNN 모델의 객체 탐지 결과에 의존하지 않으며, 실험에서 네 가지 데이터셋 모두에서 최첨단 성능을 달성함으로써 일반성(generalization)을 입증하였다.