HyperAIHyperAI

Command Palette

Search for a command to run...

ゼファー:LM アライメントの直接蒸留

概要

われわれは、ユーザの意図に合わせたより小さな言語モデルの開発を目指しています。これまでの研究では、大規模なモデルに対して蒸留された教師あり微調整(distilled Supervised Fine-Tuning: dSFT)を適用することでタスク精度が大幅に向上することが示されています。しかし、これらのモデルは未対応であり、つまり自然なプロンプトに対する反応が良好でないという問題があります。この特性を蒸留するために、AIフィードバック(AI Feedback: AIF)からの嗜好データの使用について実験を行いました。教師モデルによってランク付けされた出力データセットから始め、蒸留された直接的な嗜好最適化(distilled Direct Preference Optimization: dDPO)を適用して、意図対応性能が大幅に向上したチャットモデルを学習しました。このアプローチは微調整中に追加のサンプリングを必要とせず、数時間の訓練だけで完了します。最終的な結果であるZephyr-7Bは、70億パラメータを持つモデルにおけるチャットベンチマークにおいて最先端の性能を達成し、人間による注釈を必要としません。特にMT-Benchでの結果では、Zephyr-7Bが最良のオープンアクセスRLHFベースのモデルであるLlama2-Chat-70Bを超えることが示されました。本システムに関するコード、モデル、データ、およびチュートリアルはhttps://github.com/huggingface/alignment-handbookで利用可能です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています