3ヶ月前

トランプルのトークンから検索することで言語モデルの性能向上

Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, Laurent Sifre
トランプルのトークンから検索することで言語モデルの性能向上
要約

自己回帰型言語モデルの性能を、前段のトークンと局所的に類似する文書チャンクを大規模コーパスから検索し、それを条件として用いることで向上させました。2兆トークン規模のデータベースを活用した本研究の検索強化型トランスフォーマー(Retrieval-Enhanced Transformer, RETRO)は、パラメータ数をGPT-3やJurassic-1の約1/25に抑えたにもかかわらず、「The Pile」ベンチマークにおいて同等の性能を達成しました。微調整(fine-tuning)を施した後、RETROは質問応答を含む知識集約型の下流タスクにおいても優れた性能を発揮します。RETROは、固定されたBERT検索エンジン、微分可能なエンコーダー、およびチャンク化されたクロスアテンション機構を組み合わせることで、通常の学習時に扱うデータ量よりも1桁以上多くのデータに基づいてトークンを予測します。通常、RETROはゼロから訓練しますが、事前学習済みのトランスフォーマーに検索機能を迅速に追加(RETROfit)することも可能であり、依然として良好な性能が得られます。本研究は、過去にない規模での明示的メモリの活用を通じて、言語モデルの性能向上に向けた新たな道を開くものと言えます。