시각적 스토리텔링은 주어진 사진 앨범에 대해 자동으로 내러티브 문단을 생성하는 것을 목표로 한다. 개별 이미지에 대한 문단 생성보다 더 많은 새로운 도전 과제를 제기하는데, 그 주요 원인은 사진 앨범의 풍부한 내용을 표현하기 위해 다양한 어휘를 생성하고, 일관된 주제 흐름을 유지하는 데 어려움이 있기 때문이다. 기존의 주목력 기반 모델은 고차원적인 안내 정보가 부족하여 생성된 문장과 이미지가 표현하는 주제 간에 일관성 부족이 발생한다. 또한, 표준 비음 검색(beam search)을 활용하는 일반적인 언어 생성 방법은 반복적인 서술을 유발하는 경향이 있다. 본 연구에서는 위의 문제들을 해결하기 위해 일관성 있는 시각적 스토리텔링(CoVS) 프레임워크를 제안한다. 구체적으로, 인코딩 단계에서는 입력 사진 앨범의 시각적 특징을 효율적으로 추출하기 위한 이미지 시퀀스 인코더를 설계하였다. 이후, 주제 인식 신경망, 병렬 상향식 주목력 모델, 일관성 있는 언어 생성기로 구성된 새로운 병렬 상향식 시각적 및 주제 주목력(PtDVTA) 디코더를 제안하였다. 특히, 시각적 주목력은 객체의 속성과 관계에 초점을 맞추며, 주제 인식 신경망을 통합한 주제 주목력은 생성된 문장의 일관성을 향상시킨다. 마지막으로, 생성된 스토리의 표현 다양성을 최적화하기 위해 n-그램 해밍 다양성(n-gram Hamming diversity)을 도입한 어휘 비음 검색 알고리즘을 추가로 설계하였다. 제안된 CoVS 프레임워크의 타당성을 검증하기 위해 VIST 데이터셋에서 광범위한 실험을 수행한 결과, CoVS는 더 자연스럽고 일관성 있으며 다양한 스토리를 자동으로 생성할 수 있음을 입증하였다. 또한, BLEU-4 및 METEOR 점수에서 최신 기준 모델보다 우수한 성능을 달성하면서도, CIDEr 및 ROUGH_L 점수에서도 우수한 성능을 유지하였다. 본 연구의 소스 코드는 https://mic.tongji.edu.cn 에서 확인할 수 있다.