14日前

事前学習されたTransformerをRNNにファインチューニングする

Jungo Kasai, Hao Peng, Yizhe Zhang, Dani Yogatama, Gabriel Ilharco, Nikolaos Pappas, Yi Mao, Weizhu Chen, Noah A. Smith

要約

トランスフォーマーは自然言語生成において、再帰型ニューラルネットワーク（RNN）を上回る性能を発揮している。しかし、これには大きな計算コストが伴う。アテンション機構の複雑さはシーケンス長に対して二次的に増加するためである。近年、効率的なトランスフォーマーの変種に対する関心が高まっている。その中でも、線形計算量の再帰型アーキテクチャは、自己回帰的生成に特に適していることが示されている。このアーキテクチャは、ソフトマックスアテンションをランダム化またはヒューリスティックな特徴写像で近似するが、学習が困難であり、最適な精度に達しない場合もある。本研究では、事前学習済みのトランスフォーマーを、その効率的な再帰型バージョンに変換する手法を提案する。これにより、精度を維持しつつ、推論効率を向上させる。具体的には、「交換して微調整（swap-then-finetune）」という手順を採用する。既存の事前学習済みトランスフォーマーにおいて、ソフトマックスアテンションを線形計算量の再帰型代替機構に置き換え、その後微調整を行う。学習可能な特徴写像を用いることで、従来のトランスフォーマーおよび他の再帰型変種と比較して、効率性と精度のバランスが向上する。また、本手法の微調整プロセスは、これらの再帰型変種をゼロから学習する場合に比べて、より低い学習コストで済むことを示した。自然言語処理タスクにおいて、大規模な事前学習済みトランスフォーマーの利用がますます増加している中、本研究は、高コストな事前学習プロセスを再実行せずに推論効率を改善する実用的なアプローチを提供している。