1ヶ月前

連続キャッシュを用いたニューラル言語モデルの改善

Edouard Grave; Armand Joulin; Nicolas Usunier

要約

私たちは、ニューラルネットワーク言語モデルの予測を最近の履歴に適応させるための拡張を提案します。私たちのモデルは、過去の隠れ層アクティベーションをメモリとして保存し、現在の隠れ層アクティベーションとのドット積を通じてそれらにアクセスするメモリ拡張型ネットワークの簡略版です。この機構は非常に効率的であり、非常に大規模なメモリサイズにも対応できます。また、ニューラルネットワークにおける外部メモリの使用と、頻度ベースの言語モデルで使用されるキャッシュモデルとの関連性についても考察します。複数の言語モデルデータセットにおいて、私たちの手法が最近のメモリ拡張型ネットワークよりも有意に優れていることを示しています。