11日前

OpenChat:混質データを活用したオープンソース言語モデルの進展

Guan Wang, Sijie Cheng, Xianyuan Zhan, Xiangang Li, Sen Song, Yang Liu
OpenChat:混質データを活用したオープンソース言語モデルの進展
要約

近年、LLaMAのようなオープンソースの大規模言語モデルが登場している。最近の進展では、これらのモデルを人間の目的に整合させるために、教師付き微調整(SFT)および強化学習による微調整(RLFT)が組み込まれている。しかし、SFT手法は質の異なる混合された訓練データを一律に扱うのに対し、RLFT手法は高品質なペアワイズまたは順位ベースの好みデータを必要とする。本研究では、質の異なるデータを用いてオープンソース言語モデルを進化させるための新しいフレームワーク、OpenChatを提案する。具体的には、少量の専門家データと大量の劣化したデータが混合された一般的なSFT訓練データを対象とし、好みラベルを一切持たない状況を想定する。そこで、異なるデータソースを粗粒度の報酬ラベルとみなす「C(onditioned)-RLFT」を提案する。この手法は、クラス条件付きポリシーを学習することで、データ品質情報の補完性を活用する。興味深いことに、C-RLFTにおける最適ポリシーは、単一段階の強化学習不要な教師付き学習により容易に解くことができ、人間による好みラベル付けの高コストを回避できる軽量なアプローチとなる。3つの標準ベンチマークにおける広範な実験の結果、C-RLFTで微調整されたopenchat-13bは、すべての13B規模のオープンソース言語モデルの中で最高の平均性能を達成した。さらに、AGIEvalを用いたモデルの汎化性能の検証では、唯一openchat-13bがベースモデルを上回った。最後に、OpenChatの有効性とロバスト性を明らかにするための一連の分析を行った。本研究のコード、データ、モデルは、https://github.com/imoneoi/openchat および https://huggingface.co/openchat にて公開されている。

OpenChat:混質データを活用したオープンソース言語モデルの進展 | 最新論文 | HyperAI超神経