16日前

BERT-hLSTMs:視覚物語作成のためのBERTと階層的LSTM

Jing Su, Qingyun Dai, Frank Guerin, Mian Zhou
BERT-hLSTMs:視覚物語作成のためのBERTと階層的LSTM
要約

視覚的ストーリーテリングは、画像の連続に対して物語風の記述を自動生成することを目的とする創造的かつ挑戦的なタスクである。従来の視覚的ストーリーテリング手法は、単語レベルのシーケンス生成手法を用いるため、生成される記述に一貫性が欠け、文レベルの依存関係を十分に考慮できていない。この問題に対処するために、本研究では文レベルと単語レベルの意味を別々にモデル化する新しい階層型視覚的ストーリーテリングフレームワークを提案する。本手法では、TransformerベースのBERTを用いて文および単語の埋め込み表現を取得し、階層型LSTMネットワークを採用する。下位のLSTMはBERTから得られた文ベクトル表現を入力として受け取り、画像に対応する文間の依存関係を学習する。上位のLSTMは、下位のLSTMからの出力を入力とし、対応する単語レベルのベクトル表現を生成する。実験結果から、本モデルはBLEUおよびCIDErという自動評価指標において、最も類似したベースラインを上回ることが示され、人間による評価でも本手法の有効性が確認された。

BERT-hLSTMs:視覚物語作成のためのBERTと階層的LSTM | 最新論文 | HyperAI超神経