HyperAI超神经

UNA steht für Unified Alignment Framework, ein neues Ausrichtungsframework, das von einem Forschungsteam von Salesforce und der Universität Xiamen vorgeschlagen wurde. Die relevanten Papierergebnisse sindUNA: Vereinheitlichung der Ausrichtungen von RLHF/PPO, DPO und KTO durch eine verallgemeinerte implizite Belohnungsfunktion".

Die Kernidee von UNA besteht darin, verschiedene Ausrichtungstechniken, einschließlich RLHF/PPO, DPO und KTO, durch eine verallgemeinerte implizite Belohnungsfunktion zu vereinheitlichen. Das Neue an diesem Ansatz ist, dass er diese Ausrichtungstechniken in ein überwachtes Lernproblem integriert, bei dem es darum geht, den Unterschied zwischen impliziten und expliziten Belohnungen zu minimieren.

UNA wurde vorgeschlagen, um einige Einschränkungen bestehender Ausrichtungstechniken zu beheben. Beispielsweise erfordert RLHF das separate Trainieren des Belohnungsmodells und der Richtlinie, was komplex, zeitaufwändig, speicherintensiv und während des Trainings instabil ist. Obwohl DPO eine Zuordnungsbeziehung zwischen der optimalen Strategie und der Belohnung vorschlägt und den Trainingsprozess von RLHF vereinfacht, kann es das Belohnungsmodell nicht vollständig nutzen und ist auf gepaarte Präferenzdaten beschränkt. UNA beweist mathematisch, dass bei einem klassischen RLHF-Ziel die optimale Strategie durch eine verallgemeinerte implizite Belohnungsfunktion herbeigeführt werden kann. Diese neue Zuordnung ermöglicht es UNA, RLHF/PPO zu vereinfachen und gleichzeitig den RL-Feinabstimmungsprozess zu stabilisieren, zu beschleunigen und dessen Speicherbelastung zu reduzieren sowie verschiedene Arten von Feedback zu berücksichtigen, darunter paarweises, binäres und skalares Feedback.

UNA-Ausrichtungsrahmen