視覚的ストーリーテリングは、与えられた写真アルバムに対して自動的に物語文を生成することを目的としている。個々の画像に対する段落記述よりも多くの新しい課題を提示する。特に、一貫性のあるトピックを維持する難しさや、写真アルバムに豊富に含まれる内容を多様な表現で描写する必要がある点が挙げられる。従来の注目メカニズム(attention-based)モデルは、上位レベルの誘導情報が不足しているため、生成された文と画像が示すトピックとの間にずれが生じやすい。さらに、標準的なビームサーチ(beam search)を用いる広く採用されている言語生成手法は、しばしば単調な記述を生み出してしまう。本研究では、上記の課題に対処するため、一貫性のある視覚的ストーリーテリング(CoVS)フレームワークを設計した。具体的には、エンコーディング段階で、入力された写真アルバムの視覚的特徴を効率的に抽出するための画像系列エンコーダを構築した。その後、トピックに敏感なニューラルネットワーク、並列的トップダウン注目モデル、および一貫性のある言語生成器を組み合わせて、新規の並列的トップダウン視覚・トピック注目(PTDVTA)デコーダを構築した。具体的には、視覚的注目は物体の属性や関係性に焦点を当てる一方、トピック注目はトピックに敏感なニューラルネットワークを統合することで、生成される文章の一貫性を向上させる。最終的に、n-gramハミング多様性を考慮したフレーズビームサーチアルゴリズムを導入し、生成された物語の表現の多様性を最適化した。提案するCoVSフレームワークの有効性を検証するため、VISTデータセット上で広範な実験を実施した。その結果、CoVSはより自然な方法で一貫性があり多様な物語を自動生成できることを示した。さらに、BLEU-4およびMETEORスコアにおいて最先端のベースラインよりも優れた性能を達成しつつ、CIDErおよびROUGE-Lスコアも良好な水準を維持した。本研究のソースコードは、https://mic.tongji.edu.cn にて公開されている。