8日前

ProGen：文脈内フィードバックを用いたプログレッシブなゼロショットデータセット生成

Jiacheng Ye, Jiahui Gao, Jiangtao Feng, Zhiyong Wu, Tao Yu, Lingpeng Kong

要約

最近、大規模な事前学習済み言語モデル（PLM）から合成されたデータセットを用いてタスク固有モデルを訓練する「データセット生成に基づくゼロショット学習」は、有望な成果を示している。このアプローチにより、ゼロショット設定下において、パラメータ数が数桁少ないにもかかわらず、PLMと同等あるいはそれ以上の性能を達成するタスク固有モデルが得られることが多くなっている。しかし、合成データセットには依然として課題が存在する。長年にわたり、低品質（例えば情報量の低さや重複の多さ）という問題に直面しており、これがなぜ大量の合成データが人間ラベル付きデータと同様に性能向上をもたらさないのかを説明している。本研究では、タスク固有モデルからのフィードバックを活用し、文脈内例（in-context examples）を通じて新しい学習データの生成をガイドする、プログレッシブなゼロショットデータセット生成フレームワーク「ProGen」を提案する。5つのテキスト分類データセットにおける広範な実験により、本手法の有効性を実証した。さらに、従来手法に比べて文脈内フィードバックを用いない場合に比べ、合成データセットサイズをたった1％に抑えた状態でも、ProGenは同等あるいは優れた性能を達成することを示した。