10日前

Story2Board:表現力豊かなストーリーボード生成のためのトレーニングフリーなアプローチ

David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
Story2Board:表現力豊かなストーリーボード生成のためのトレーニングフリーなアプローチ
要約

本稿では、自然言語から表現豊かなストーリーボードを生成するためのトレーニング不要なフレームワーク「Story2Board」を提案する。既存の手法は、主に登場人物の同一性に注目しているが、空間構成や背景の変化、物語のペーシングといったビジュアル・ストーリーテリングの重要な側面を軽視している。この問題に対処するため、アーキテクチャの変更やファインチューニングを必要とせずに、一貫性を高める軽量なフレームワークを構成する2つのモジュールを導入する。第一に、潜在パネルアンカー(Latent Panel Anchoring) は、複数のパネルにわたって同一のキャラクター参照を維持する。第二に、相互注意値混合(Reciprocal Attention Value Mixing) は、相互注意が強いトークンペア間で視覚特徴をソフトに混合する。これらのメカニズムにより、従来の拡散モデル(diffusion models)をそのまま利用しつつ、視覚的に多様でありながら一貫性のあるストーリーボードの生成が可能となる。生成プロセスを構造化するため、自由な形式の物語を、パネル単位の明確なプロンプトに変換するための汎用言語モデル(off-the-shelf language model)を活用する。評価のため、一貫性に加え、レイアウトの多様性および背景に基づく物語表現の質を評価できるよう、オープンドメインの物語を用いた「豊富なストーリーボードベンチマーク(Rich Storyboard Benchmark)」を提案する。さらに、ストーリーボード全体における空間的配置やポーズの変化を定量的に評価可能な新しい指標「シーン多様性(Scene Diversity)」を導入した。定性的・定量的な実験結果およびユーザースタディの結果から、Story2Boardが既存のベースラインに比べ、よりダイナミックで一貫性が高く、物語的に魅力的なストーリーボードを生成できることを示した。