2ヶ月前

オンラインテキスト拡張とコンテクストメモリを用いたストーリービジュアライゼーション

Daechul Ahn; Daneul Kim; Gwangmo Song; Seung Hwan Kim; Honglak Lee; Dongyeop Kang; Jonghyun Choi
オンラインテキスト拡張とコンテクストメモリを用いたストーリービジュアライゼーション
要約

ストーリー可視化(SV)は、テキスト記述から視覚的な詳細を描画するだけでなく、複数の文にわたる長期的なコンテクストを符号化することの難しさから、挑戦的なテキストから画像への生成タスクです。これまでの研究では主に各文に対して意味的に関連性のある画像を生成することに焦点が当てられてきましたが、与えられた段落全体にわたるコンテクストを符号化して、文脈的に説得力のある画像(例えば、正しいキャラクターを使用したり、適切なシーンの背景を持つ画像)を生成することは依然として課題となっています。この問題に対処するために、我々は双方向トランスフォーマー枠組み向けの新しいメモリアーキテクチャとオンラインテキスト拡張を提案します。この方法は、訓練中に複数の擬似記述を生成し、推論時の言語変動に対するより良い汎化性能を得るために補助的な監督として使用します。Pororo-SV および Flintstones-SV という2つの人気SVベンチマークでの広範な実験において、提案手法はFID、キャラクターF1スコア、フレーム精度、BLEU-2/3スコア、R-適合度などの様々な指標で現行の最先端技術を大幅に上回り、同程度またはそれ以下の計算量で優れた結果を示しています。

オンラインテキスト拡張とコンテクストメモリを用いたストーリービジュアライゼーション | 最新論文 | HyperAI超神経