12일 전
Dual-CNN: 단일 문단 이미지 설명을 위한 컨볼루션 언어 디코더
{Xiaojie Wang, Fangxiang Feng, Yihui Shi, Haoyun Liang, Ruifan Li}
초록
요약단락 이미지 캡션 생성의 과제는 주어진 이미지를 설명하는 일관성 있는 단락을 생성하는 것이다. 그러나 순환 신경망 또는 장단기 기억망 기반의 디코더는 장기적 의존성을 효과적으로 포착할 수 있는 능력이 제한적이어서, 긴 단락 형식의 만족스러운 텍스트 설명을 생성하기 어렵다. 또한 순차적 디코더에서의 학습 효율성 저하 문제가 두드러지게 나타난다. 이에 힘입어 컨볼루셔널 신경망(CNN)의 장점을 활용하고자 본 논문에서는 장기 기억 능력과 병렬 계산을 갖춘 이중 CNN 디코더를 제안한다. 이 모델은 이미지에 대해 의미적으로 일관성 있는 단락을 생성할 수 있다. 제안된 이중 CNN 모델은 스탠포드 이미지-단락 데이터셋에서 평가되었으며, 광범위한 실험을 통해 최신 기술 대비 비교 가능한 성능을 달성함을 입증하였다. 더불어 생성된 단락의 다양성과 일관성에 대한 분석을 통해 본 방법의 우수성을 보여주었다.