
초록
최근 이미지 캡셔닝 분야의 발전으로 자연어를 사용하여 이미지를 설명하는 새로운 문장을 생성할 수 있게 되었습니다. 그러나 단일 문장으로 이미지를 압축하면 시각적 내용을 대략적으로만 설명할 수 있다는 한계가 있습니다. 다중 캡셔닝(dense captioning)이라는 새로운 접근 방식은 이미지 내 여러 영역에 대한 캡셔닝을 통해 세부적인 수준에서 이미지를 설명할 가능성을 제공하지만, 이는 차례로 이미지에 대한 일관된 이야기를 생성하는 데 실패합니다. 본 논문에서는 이러한 제약을 극복하기 위해 이미지를 설명하는 전체 단락을 생성함으로써 상세하고 통합된 이야기를 전달할 수 있는 방법을 제시합니다. 우리는 이미지와 단락을 각 구성 요소로 분해하는 모델을 개발하였으며, 이 모델은 이미지에서 의미론적 영역을 감지하고 계층적 순환 신경망(hierarchical recurrent neural network)을 사용하여 언어에 대해 추론합니다. 언어학적 분석은 단락 생성 작업의 복잡성을 확인해주며, 새로운 이미지-단락 쌍 데이터셋에서 수행한 철저한 실험들은 우리의 접근 방식이 효과적임을 입증합니다.