9日前
長距離シーケンスモデリングのための圧縮トランスフォーマー
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap

要約
我々は、過去の記憶を圧縮することで長距離シーケンス学習を可能にする注目型シーケンスモデル「Compressive Transformer」を提案する。本研究では、WikiText-103およびEnwik8ベンチマークにおいて、最先端の言語モデリング性能を達成し、それぞれ17.1 perplexity(ppl)および0.97 bit per character(bpc)を実現した。また、高周波音声のモデリングにおいても有効であることが判明し、オブジェクトマッチングタスクを用いた強化学習(RL)におけるメモリ機構としての応用も示した。長距離シーケンス学習分野の発展を促進するため、書籍から抽出した新しいオープンボキャブラリ言語モデリングベンチマーク「PG-19」を提案する。