16日前

多タスク微調整による跨言語一般化

Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng-Xin Yong, Hailey Schoelkopf, Xiangru Tang, Dragomir Radev, Alham Fikri Aji, Khalid Almubarak, Samuel Albanie, Zaid Alyafeai, Albert Webson, Edward Raff, Colin Raffel

論文の詳細を見る

要約

マルチタスク微調整（MTF）は、大規模言語モデルがゼロショット設定において新たなタスクに一般化するのを支援することが示されており、これまでのMTFの研究は主に英語データおよびモデルに限定されてきた。本研究では、多言語対応の事前学習モデルであるBLOOMおよびmT5を対象にMTFを適用し、それぞれの微調整版としてBLOOMZおよびmT0を構築した。その結果、英語のタスクと英語のプロンプトを用いた大規模多言語言語モデルの微調整により、事前学習コーパス内にのみ登場する非英語言語に対するタスク一般化が可能であることが明らかになった。さらに、英語プロンプトを用いた多言語タスクでの微調整は、英語および非英語タスクの性能を向上させ、さまざまな状態の最良（SOTA）ゼロショット結果を達成した。また、各データセットの言語に合わせて英語から機械翻訳されたプロンプトを用いた微調整の検証も行った。その結果、機械翻訳されたプロンプトを用いた学習により、各言語における人間が書いたプロンプトに対する性能が向上することが分かった。驚くべきことに、モデルが意図的に見たことのない言語におけるタスクに対してもゼロショット一般化が可能であることが判明した。我々は、モデルがタスクや言語に依存しない高次元の能力を学習していると推測する。さらに、英語および機械翻訳されたプロンプトを用いた46言語の教師ありデータセットを統合したxP3を導入した。本研究のコード、データセット、モデルはすべて、https://github.com/bigscience-workshop/xmtf にて公開されている。