2ヶ月前

ゼファー：LM アライメントの直接蒸留

Tunstall, Lewis ; Beeching, Edward ; Lambert, Nathan ; Rajani, Nazneen ; Rasul, Kashif ; Belkada, Younes ; Huang, Shengyi ; von Werra, Leandro ; Fourrier, Clémentine ; Habib, Nathan ; Sarrazin, Nathan ; Sanseviero, Omar ; Rush, Alexander M. ; Wolf, Thomas

論文の詳細を見る

要約

われわれは、ユーザの意図に合わせたより小さな言語モデルの開発を目指しています。これまでの研究では、大規模なモデルに対して蒸留された教師あり微調整（distilled Supervised Fine-Tuning: dSFT）を適用することでタスク精度が大幅に向上することが示されています。しかし、これらのモデルは未対応であり、つまり自然なプロンプトに対する反応が良好でないという問題があります。この特性を蒸留するために、AIフィードバック（AI Feedback: AIF）からの嗜好データの使用について実験を行いました。教師モデルによってランク付けされた出力データセットから始め、蒸留された直接的な嗜好最適化（distilled Direct Preference Optimization: dDPO）を適用して、意図対応性能が大幅に向上したチャットモデルを学習しました。このアプローチは微調整中に追加のサンプリングを必要とせず、数時間の訓練だけで完了します。最終的な結果であるZephyr-7Bは、70億パラメータを持つモデルにおけるチャットベンチマークにおいて最先端の性能を達成し、人間による注釈を必要としません。特にMT-Benchでの結果では、Zephyr-7Bが最良のオープンアクセスRLHFベースのモデルであるLlama2-Chat-70Bを超えることが示されました。本システムに関するコード、モデル、データ、およびチュートリアルはhttps://github.com/huggingface/alignment-handbookで利用可能です。