HyperAIHyperAI

Command Palette

Search for a command to run...

多タスク微調整による跨言語一般化

概要

マルチタスク微調整(MTF)は、大規模言語モデルがゼロショット設定において新たなタスクに一般化するのを支援することが示されており、これまでのMTFの研究は主に英語データおよびモデルに限定されてきた。本研究では、多言語対応の事前学習モデルであるBLOOMおよびmT5を対象にMTFを適用し、それぞれの微調整版としてBLOOMZおよびmT0を構築した。その結果、英語のタスクと英語のプロンプトを用いた大規模多言語言語モデルの微調整により、事前学習コーパス内にのみ登場する非英語言語に対するタスク一般化が可能であることが明らかになった。さらに、英語プロンプトを用いた多言語タスクでの微調整は、英語および非英語タスクの性能を向上させ、さまざまな状態の最良(SOTA)ゼロショット結果を達成した。また、各データセットの言語に合わせて英語から機械翻訳されたプロンプトを用いた微調整の検証も行った。その結果、機械翻訳されたプロンプトを用いた学習により、各言語における人間が書いたプロンプトに対する性能が向上することが分かった。驚くべきことに、モデルが意図的に見たことのない言語におけるタスクに対してもゼロショット一般化が可能であることが判明した。我々は、モデルがタスクや言語に依存しない高次元の能力を学習していると推測する。さらに、英語および機械翻訳されたプロンプトを用いた46言語の教師ありデータセットを統合したxP3を導入した。本研究のコード、データセット、モデルはすべて、https://github.com/bigscience-workshop/xmtf にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています