Command Palette
Search for a command to run...
차별적 제약 최적화 프레임워크(DisCO)
DisCO 프레임워크는 2025년 5월 텍사스 A&M 대학 연구팀에 의해 제안되었으며, 관련 연구 결과는 논문 "DisCO: 판별 제약 최적화를 통한 대규모 추론 모델 강화이 연구는 NeurIPS 2025에 선정되었습니다.
DisCO 프레임워크는 차별적 학습 원리에 기반합니다. 즉, 긍정적 답변의 점수는 높이고 부정적 답변의 점수는 낮춰 LRM을 강화합니다. 이 프레임워크는 그룹 상대 정책 최적화(GRPO) 및 그 변형 프레임워크에 비해 상당한 장점을 가지고 있습니다.
(i) 차별적 목표를 채택함으로써 난이도 편향이 완전히 제거되었습니다.
(ii) 비가지치기 점수 함수와 제약 최적화 방법을 사용하여 GRPO 및 그 변형의 엔트로피 불안정성 문제가 해결되어 길고 안정적인 학습 역학이 생성됩니다.
(iii) 학습 중에 많은 수의 질문이 긍정적인 답변보다 부정적인 답변을 더 많이 생성하는 불균형 데이터 문제를 해결하기 위해 고급 차별 학습 기술을 통합할 수 있습니다.