視覚的物語生成(Visual narrating)は、画像や動画の視覚的コンテンツを要約する意味的な記述を生成することを目的としており、例えば視覚的キャプション(visual captioning)や視覚的ストーリーテリング(visual storytelling)が該当する。この分野における主な課題は、視覚的コンテンツと整合性の高い正確な記述を生成するためのデコーダーをいかに設計するかにある。近年の研究では、長短期記憶(LSTM)を含む再帰型ニューラルネットワーク(RNN)をデコーダーとして広く採用している。しかし、RNNは長期的な情報を劣化させる傾向があり、長期依存関係を正確に捉える能力が制限される。一方、最近の研究では、記憶ネットワーク(MemNet)が長期情報を効果的に保持できるという利点が示されている。しかし、視覚的物語生成のデコーダーとしてのMemNetの活用はまだ十分に行われていない。その理由の一つは、MemNetを用いたマルチモーダルな順次デコーディングの実装が難しいことに起因している。本稿では、視覚的物語生成に向けた新しい記憶デコーダーを提案する。具体的には、より優れたマルチモーダル表現を得るため、まず視覚情報と語彙情報の完全な融合を実現する新たなマルチモーダル融合手法を設計する。その後、この融合結果を基に、デコーディング過程において複数の記憶層から構成されるMemNetベースのデコーダーを構築する。特に、各層において、過去のデコーディング情報を保持する記憶セットを用い、現在の出力に関連する情報を適応的に選択するためのアテンション機構を導入する。同時に、各記憶層の現在時刻におけるデコーディング出力を保持する記憶セットを設け、再びアテンション機構を用いて関連情報を選択する。これにより、長期情報の劣化を軽減することができる。さらに、階層的なアーキテクチャにより、各層に内在する潜在的な情報を効果的に活用でき、正確な記述生成に寄与する。視覚的物語生成の2つのタスク、すなわち動画キャプション生成と視覚的ストーリーテリングに関する実験結果から、本提案デコーダーが優れた性能を発揮し、従来のRNNベースのデコーダーを上回ることを確認した。