3ヶ月前

AOG-LSTM：視覚的物語生成のための適応型アテンションニューラルネットワーク

{and Wei Wu, Rui Xie, Hui Wang, Yong Jiang, Hai-Tao Zheng, Wei Wang, Chia-Hao Chang, Jiacheng Yang, Hanqing Liu}

要約

視覚的ストーリーテリングは、与えられた画像シーケンスに対して関連する物語を生成するタスクであり、近年注目を集めている。しかし、従来のRNN（例：LSTMやGRU）をデコーダとして用いる場合、モデルの性能に限界が生じる。これは、異なる種類の情報表現を区別できないためである。さらに、過去の正解シーケンスに条件づけて次の単語の確率を最適化する手法は、推論過程において誤差の蓄積を引き起こす。また、既存の誤差蓄積の緩和手法である参照単語の置き換え法は、各単語がもたらす影響の差異を考慮していない。これらの問題に対処するため、本研究ではAOG-LSTMと呼ばれる改良型ニューラルネットワークと、ARSと呼ばれる改良型学習戦略をそれぞれ提案する。AOG-LSTMは、異なる単語を予測する際に、内部の異なる情報表現に対して適切に注意を適応的に配分できる。学習段階では、ARSは既存の手法と同様に、参照文の一部をモデルの予測値で置き換えるが、より適切な単語を選択するために選択ネットワークと選択戦略を導入することで、モデルの性能をより効果的に向上させる。VISTデータセットにおける実験結果から、本モデルが複数の強力なベースラインに対して、最も一般的に用いられる評価指標において優れた性能を発揮することが示された。