16日前

自己教師あり事前学習の向上を図るための完全に探索されたマスク言語モデル

Mingzhi Zheng, Dinghan Shen, Yelong Shen, Weizhu Chen, Lin Xiao

要約

マスク言語モデル（MLM）フレームワークは、自己教師付き言語事前学習において広く採用されている。本論文では、MLMにおけるランダムにサンプリングされたマスクが不適切な大きさの勾配分散を引き起こす可能性があると主張する。そこで、特定のテキストシーケンスに対して、異なる2つのマスク間のハミング距離と勾配共分散を関連付けることで、勾配分散を理論的に定量化する。マスクのサンプリングに起因する分散を低減するために、テキストシーケンスを重複のない一定数のセグメントに分割し、各セグメント内のトークンを一括してマスクする「完全に探索されたマスキング戦略」を提案する。理論的にも、この新たなマスキングスキームから得られる勾配は分散が小さく、自己教師付き学習の効率性を向上させられることを証明する。継続的事前学習およびスクラッチからの汎用的事前学習の両方において、広範な実験を実施した結果、この新しいマスキング戦略が標準的なランダムマスキングを一貫して上回ることが実証された。詳細な効率性分析およびアブレーションスタディにより、MLMフレームワーク下における当該戦略の優位性がさらに裏付けられた。