視覚的ストーリーテリング(Visual storytelling)とは、写真アルバムに対して自動的に物語文を生成することを目的とする技術であり、写真アルバムのコンテンツが複雑かつ多様であるため、依然として大きな課題を抱えている。さらに、オープンドメインの写真アルバムは多岐にわたるトピックをカバーしており、これにより記述に用いられる語彙や表現スタイルが極めて多様化する。本研究では、これらの課題に対応するため、階層的BERT意味論的ガイダンス(Hierarchical BERT Semantic Guidance; HBSG)を備えた新しい教師-生徒型視覚的ストーリーテリングフレームワークを提案する。提案する教師モジュールは、二つの連携タスクから構成される。第一のタスクは単語レベルの潜在トピック生成であり、物語の潜在的なトピックを予測することを目的としている。実際の正解トピック情報が存在しないため、視覚的コンテンツとアノテーション付き物語に基づいて事前学習されたBERTモデルを用いてトピックを抽出し、そのトピックベクトルを設計された画像-トピック予測モデルに知識蒸留(knowledge distillation)する。第二のタスクは意味論的ガイダンス付き文生成であり、HBSGを二つの目的で導入する。第一の目的は、異なるトピック間での言語の複雑さを制御することである。これにより、視覚情報と意味情報を統合したコアテンションデコーダを設計し、潜在トピックを活用してトピック関連の言語モデルを誘導する。第二の目的は、文の意味情報をオンラインでの外部言語知識として利用する教師モジュールとして活用することである。最終的に、言語知識を言語生成モデルに変換するための補助損失(auxiliary loss)を設計した。広範な実験により、HBSGフレームワークの有効性が実証された。特に、VISTテストセット上で評価した結果、既存の最先端手法を上回る性能を達成した。