이미지 단락 캡션 생성을 위한 계층적 장면 그래프 인코더-디코더
사람들이 이미지에 대해 긴 문단을 서술할 때, 보통 먼저 무의식적으로 정신적인 ‘스토리보드(storyboard)’를 구성한 후, 이를 따르며 문단을 생성한다. 이러한 현상에 영감을 받아, 우리는 계층적인 장면 그래프 인코더-디코더(Hierarchical Scene Graph Encoder-Decoder, HSGED) 모델을 제안함으로써 현대적인 인코더-디코더 기반 이미지 문단 캡션 생성 모델에 이러한 능력을 부여한다. 특히 이미지 장면 그래프를 ‘스토리보드’로 활용하여 풍부한 의미 정보를 모델에 통합하고, 더 중요한 것은 계층적 제약 조건을 도입한다. 구체적으로, 하위 그래프 수준의 주제를 생성하기 위해 문장 장면 그래프 RNN(Statement Scene Graph RNN, SSG-RNN)을 설계하였으며, 이는 단어 장면 그래프 RNN(Word Scene Graph RNN, WSG-RNN)이 해당 문장을 생성하도록 제약한다. 또한 SSG-RNN에서 중복을 줄이는 주의 메커니즘(irredundant attention)을 도입하여 드문 장면 하위 그래프로부터 주제를 더 잘 추출할 수 있도록 하였고, WSG-RNN에서는 주의 메커니즘을 계승함으로써 추출된 주제를 기반으로 더 구체적이고 현실에 기반한 문장을 생성한다. 이러한 두 가지 기법은 더 독창적이고 일관성 있는 문단 생성을 가능하게 한다. 또한, 생성된 문장들의 순서가 참값 문단의 순서와 유사하도록 유도하기 위해 효율적인 문장 수준의 손실 함수를 제안하였다. 제안한 HSGED 모델은 스탠포드 이미지 문단 데이터셋에서 검증되었으며, 기존 최고 성능을 넘어서는 36.02의 CIDEr-D 점수를 기록함과 동시에 다양한 평가 지표에서 더 일관성 있고 독창적인 문단을 생성함을 입증하였다.