
초록
최근 인기 있는 이미지에서 문단 생성은 비디오 요약, 편집 및 장애인 지원에 있어 중요한 작업입니다. 기존의 이미지 캡셔닝 방법들은 긴 정보 제공형 설명을 생성하도록 설계되지 않았기 때문에 이 분야에서 부족한 점이 있습니다. 또한, 전통적인 이미지 캡셔닝 시스템에서 생성된 여러 짧은 문장을 단순히 연결하는 일반적인 접근 방식은 문단의 복잡성을 포괄하지 못합니다: 일관성 있는 문장, 전반적으로 일치하는 구조, 그리고 다양성. 이러한 도전 과제를 해결하기 위해, 우리는 '일관성 벡터(coherence vectors)', '전역 주제 벡터(global topic vectors)' 및 이미지와 문단을 연관시키는 본질적인 모호성을 변분 오토인코더(variational auto-encoder) 공식을 통해 모델링하여 문단 생성 기술을 강화하는 방법을 제안합니다. 개발된 접근 방식의 효과를 두 데이터셋에서 입증하였으며, 양 데이터셋 모두에서 기존 최신 기술들을 능가하였습니다.