17日前

微分可能プロンプトは、事前学習された言語モデルをより優れたFew-shotラーナーに改善する

Ningyu Zhang, Luoqiu Li, Xiang Chen, Shumin Deng, Zhen Bi, Chuanqi Tan, Fei Huang, Huajun Chen

要約

大規模な事前学習済み言語モデルは、少しだけの例（few-shot）で学習可能な能力を示すことで、自然言語処理分野において顕著な貢献を果たしている。しかし、その効果は主にモデルパラメータのスケーリングおよびプロンプト設計に依存しており、多くの実世界の応用における導入を妨げている。本研究では、小規模な言語モデルをプロンプト設計なしに、より優れた少しだけの例での学習者に変換できる、新たなプラグイン可能で拡張性が高く効率的なアプローチ「DifferentiAble pRompT（DART）」を提案する。このアプローチの基本的な原理は、潜在的な自然言語処理タスクを事前学習済み言語モデルのタスクとして再定式化し、バックプロパゲーションを用いてプロンプトテンプレートおよびターゲットラベルを微分可能に最適化することにある。さらに、提案手法は以下の点で優れている：（i）任意の事前学習済み言語モデルに容易に統合可能；（ii）広範な分類タスクへ拡張可能。標準的なNLPタスクに対する包括的な評価により、本手法が優れた少しだけの例での性能を達成することが示された。コードは以下のGitHubリポジトリで公開されている：https://github.com/zjunlp/DART。