StoryDALL-E: 事前学習されたテキストから画像への変換モデルを物語の継続に適応させる

最近のテキストから画像への合成技術の進歩により、与えられたテキストから優れた可視化を生成する大規模な事前学習済みトランスフォーマーが開発されました。しかし、これらのモデルは物語の可視化のような専門的なタスクには適していないことが明らかになっています。物語の可視化は、対応するキャプションのシーケンスに基づいて一連の画像を生成し、物語性を形成することが必要です。さらに、私たちは新しい物語における未見のプロットやキャラクターに対する一般化が困難であることを確認しました。したがって、まずソース画像に依存して生成されるビジュアルストーリーを条件付けることで、新規キャラクターを含む物語への一般化を改善するための「物語継続」タスクを提案します。次に、(a)順次画像生成と(b)初期フレームからの関連要素のコピーというタスク固有のモジュールで事前学習済みテキストから画像への合成モデルを強化または「レトロフィット」します。その後、パラメータ効率的な適応のために全モデルファインチューニングおよびプロンプトベースのファインチューニングについても検討します。私たちのアプローチであるStoryDALL-Eは、既存の2つのデータセットPororoSVとFlintstonesSVで評価され、新たに動画キャプショニングデータセットから収集されたDiDeMoSVというデータセットも導入しました。また、「物語継続」用にGenerative Adversarial Networks (GAN)に基づくモデルStoryGANcを開発し、StoryDALL-Eモデルとの比較を通じて当方アプローチの利点を示しています。「レトロフィット」アプローチは、「物語継続」においてGANベースのモデルよりも優れた性能を示し、ソース画像からのビジュアル要素のコピーを容易にするため、生成されたビジュアルストーリーでの連続性が向上することを示しています。最後に、分析結果によると事前学習済みトランスフォーマーは多くのキャラクターが含まれる物語性を理解するのが苦手であることが示唆されています。全体として、私たちの研究は事前学習済みテキストから画像への合成モデルが複雑でリソースが少ないタスクである「物語継続」に適応可能であることを実証しています。