UNA 정렬 프레임워크
UNA는 Unified Alignment Framework의 약자로, Salesforce와 샤먼 대학의 연구팀이 제안한 새로운 정렬 프레임워크입니다. 관련 논문 결과는 다음과 같습니다.UNA: 일반화된 암묵적 보상 함수를 통한 RLHF/PPO, DPO 및 KTO의 통합 정렬".
UNA의 핵심 아이디어는 일반화된 암묵적 보상 함수를 통해 RLHF/PPO, DPO 및 KTO를 포함한 다양한 정렬 기술을 통합하는 것입니다. 이 접근 방식의 참신한 점은 이러한 정렬 기술을 암묵적 보상과 명시적 보상 간의 차이를 최소화하는 지도 학습 문제로 융합한다는 점입니다.
UNA는 기존 정렬 기술의 한계를 해결하기 위해 제안되었습니다. 예를 들어, RLHF는 보상 모델과 정책을 별도로 학습해야 하는데, 이는 복잡하고 시간이 많이 걸리고 메모리를 많이 사용하며 학습 중 불안정합니다. DPO는 최적 전략과 보상 간의 매핑 관계를 제안하고 RLHF의 학습 과정을 단순화하지만, 보상 모델을 완전히 활용할 수 없으며 쌍으로 구성된 선호도 데이터에만 국한됩니다. UNA는 고전적인 RLHF 목표가 주어졌을 때 일반화된 암묵적 보상 함수를 통해 최적의 정책을 유도할 수 있음을 수학적으로 증명합니다. 이 새로운 매핑을 통해 UNA는 RL 미세 조정 프로세스의 메모리 부담을 안정화, 가속화하고 줄이는 동시에 RLHF/PPO를 간소화하고 쌍별, 이진, 스칼라 피드백을 포함한 다양한 유형의 피드백을 수용할 수 있습니다.