2ヶ月前
GLAC Net: 多画像ヒントに基づく物語生成のためのGLocal Attention Cascading Networks
Taehyeong Kim; Min-Oh Heo; Seonil Son; Kyoung-Wha Park; Byoung-Tak Zhang

要約
多画像からのストーリー生成タスク、例えばビジュアル・ストーリーテリング・データセット(VIST)チャレンジでは、与えられた一連の画像から複数の連続的な文章を構成することが求められます。主要な課題は、全体的な画像の文脈の中で画像特有の文章を生成することです。本稿では、グローバル-ローカル(glocal)注意とコンテキスト・カスケード機構を組み合わせて視覚的なストーリーを生成する深層学習ネットワークモデル、GLAC Netを提案します。このモデルは、全体エンコーディングレベルと画像特徴レベルという2つの注意レベルを取り入れることで、画像に依存した文章を作成します。通常の注意設定では多くのパラメータが必要ですが、GLAC Netはエンコーダの出力や画像特徴から文章ジェネレーターへのハード接続を通じて非常に単純な方法でそれらを実装しています。さらに、前後の文章間で情報を逐次的に伝達(カスケード)することで、生成されたストーリーの一貫性が向上します。我々はGLAC Netの性能をビジュアル・ストーリーテリング・データセット(VIST)上で評価し、最先端技術と比較して非常に競争力のある結果を得ました。当該コードおよび事前学習済みモデルは以下のリンクから入手可能です。注:「事前学習済みモデル」は「pre-trained models」の一般的な日本語訳です。「入手可能」は「available」の正式な表現として使用しました。