Command Palette
Search for a command to run...
TVStoryGen:キャラクター記述を用いた物語生成のためのデータセット
TVStoryGen:キャラクター記述を用いた物語生成のためのデータセット
Mingda Chen Kevin Gimpel
概要
本稿では、簡潔な要約と登場人物に関する文書群をもとに、詳細なテレビドラマエピソードの要約を生成することを要求する「TVStoryGen」という物語生成データセットを紹介する。他の物語生成データセットとは異なり、TVStoryGenはプロの脚本家によって執筆された物語を含み、複数の登場人物間の複雑な相互作用を特徴としている。TVStoryGenにおける物語生成は、短い要約に基づき、提供された長文の登場人物に関する文書から関連情報を抽出する必要がある。さらに、生成された物語の忠実度(faithfulness)を評価するため、本データセット上で逆モデル(reverse model)の学習を提案する。TVStoryGenはファンが貢献するウェブサイトから構築しており、合計26,000件のエピソード要約を収集でき、平均して1,868.7トークンの長さを持つ。実証的な実験では、階層的な物語生成アプローチを採用した結果、登場人物の記述にオラクル(oracle)コンテンツ選択器を用いたニューラルモデルが自動評価指標において最も優れた性能を示した。これは、本データセットが制約付き物語生成に関する今後の研究を促進する可能性を示している。定性的な分析から、最も性能の高いモデルでも、短い要約に忠実でない内容を生成する場合があることが明らかとなり、今後の研究における有望な方向性が示唆された。