UNA 調整フレームワーク

UNA (Unified Alignment Framework の正式名) は、Salesforce と厦門大学の研究チームによって提案された新しいアラインメント フレームワークです。関連する論文結果は「UNA: 一般化された暗黙的報酬関数による RLHF/PPO、DPO、および KTO の調整の統合”。

UNA の中心となるアイデアは、一般化された暗黙的報酬関数を通じて、RLHF/PPO、DPO、KTO などのさまざまなアラインメント手法を統合することです。このアプローチの革新的な点は、これらの調整手法を、暗黙的報酬と明示的報酬の差を最小化する教師あり学習問題に融合していることです。

UNA は、既存の位置合わせ技術の制限の一部に対処するために提案されました。たとえば、RLHF では報酬モデルとポリシーを個別にトレーニングする必要がありますが、このプロセスは複雑で時間がかかり、メモリを大量に消費し、トレーニング中に不安定になります。 DPO は、RLHF のトレーニング プロセスを簡素化する最適なポリシーと報酬の間のマッピング関係を提案しますが、報酬モデルを完全に活用することはできず、ペアごとの嗜好データに限定されます。 UNA は、古典的な RLHF の目的が与えられた場合、一般化された暗黙的な報酬関数によって最適なポリシーを誘導できることを数学的に証明します。この新しいマッピング関係により、UNA は RLHF/PPO を簡素化しつつ、RL 微調整プロセスのメモリ負荷を安定化、加速、軽減し、ペアワイズ、バイナリ、スカラー フィードバックなどのさまざまなタイプのフィードバックに対応できるようになります。