
本論文は、教師なしの生データを用いた自然言語モデルの事前学習手法の改善に焦点を当てており、下流の応用タスクとの整合性および学習効率の向上を目指している。第1部では、BERTのマスク言語モデル(Masked Language Modeling, MLM)に代わる3つの代替的事前学習目標、すなわちランダムトークン置換(Random Token Substitution, RTS)、クラスタベースのランダムトークン置換(Cluster-based Random Token Substitution, C-RTS)、およびスワップ言語モデル(Swapped Language Modeling, SLM)を提案する。これらの手法は、従来のマスキングではなくトークンの置換を用いるものであり、RTSおよびC-RTSは置換前のトークンの「元の状態」を予測することを目的とし、SLMは元のトークン値を予測することを目的としている。実験結果から、RTSおよびC-RTSはMLMと同等の性能を維持しつつ、より少ない事前学習時間を要することが明らかになった。驚くべきことに、SLMは同じ計算リソースを用いても、特定のタスクにおいてMLMを上回る性能を示した。第2部では、下流の応用タスクと構造的に整合性を持つ自己教師あり事前学習タスクを提案し、ラベル付きデータの依存度を低減することを目指す。WikipediaやCC-Newsといった大規模コーパスを用いて、テキストスパンが同じ段落または文書から由来するかどうかを複数の方法で識別するようにモデルを学習させる。既存のモデル(RoBERTa、ELECTRA、DeBERTa、BART、T5)を初期状態として継続的(continuous)に事前学習を実施した結果、事実検証(Fact Verification)、回答文選択(Answer Sentence Selection)、要約(Summarization)などのタスクにおいて顕著な性能向上が得られた。特にラベル付きデータが限られている状況下でその効果が顕著に現れた。提案するタスクは、FEVER(devセット)、ASNQ、WikiQA、TREC-QAといったさまざまなベンチマークデータセットにおいて、最先端(state-of-the-art)の結果を達成しており、要約品質の向上も確認された。重要な点として、これらの手法はTransformerモデルの内部構造を変更することなく、他の手法と容易に統合可能であり、多様な自然言語処理(NLP)応用に柔軟に適用可能な汎用性を有している。