11日前
HTLM:言語モデルのハイパーテキスト事前学習およびプロンプティング
Armen Aghajanyan, Dmytro Okhonko, Mike Lewis, Mandar Joshi, Hu Xu, Gargi Ghosh, Luke Zettlemoyer

要約
我々は、大規模なウェブクロールデータ上で訓練されたハイパーテキスト言語モデル「HTLM(Hyper-Text Language Model)」を紹介する。ハイパーテキストをモデル化することには以下の利点がある。(1)スケールに応じて容易に収集可能であること、(2)ドキュメントレベルおよびタスク固有の監視情報(例えば、class属性やid属性はしばしばドキュメントのカテゴリ情報を符号化している)を豊富に提供すること、(3)HTMLの既存の意味構造に従った新しい構造化プロンプトが可能であること(例:入力テキストを含むウェブページのtitleタグを補完することでゼロショット要約を実行する)。本研究では、簡略化されたHTML上でBART風のノイズ除去損失を用いた事前学習が、広範なエンドタスクおよび監視レベルにおいて極めて効果的な転移学習を可能にすることを示した。HTLMは、分類ベンチマークにおけるゼロショットプロンプティングおよびファインチューニングにおいて、同等規模のテキストのみを対象とした言語モデルと同等かそれ以上の性能を達成しており、さらにゼロショット要約タスクにおいても新たな最先端性能を記録した。また、既存の言語モデルが単純なテキストプロンプトに依存するのに対し、HTLMはハイパーテキストプロンプトによりデータ効率性の面で顕著な向上を示すことがわかった。さらに、HTLMは、利用可能な訓練データに対して最も可能性の高いハイパーテキスト形式を単に生成することで、自己プロンプト生成(auto-prompting)を非常に効果的に行えることも明らかになった。今後、HTLMに関する研究を支援するため、すべてのコードおよびモデルを公開する予定である。