Command Palette

Search for a command to run...

한 달 전

세부적인 인간 선호와 완전한 확산 경로를 직접 정렬하기

Xiangwei Shen Zhimin Li Zhantao Yang Shiyi Zhang et al

세부적인 인간 선호와 완전한 확산 경로를 직접 정렬하기

초록

최근 연구들은 미분 가능한 보상(differentiable reward)를 활용하여 확산 모델을 인간의 선호와 직접적으로 정렬하는 방법의 효과성을 입증해왔다. 그러나 이러한 기법은 두 가지 주요한 도전 과제를 겪고 있다. 첫째, 보상 평가를 위해 기울기 계산을 포함하는 다단계 노이즈 제거(multistep denoising)에 의존하는 데, 이는 계산 비용이 매우 높아 최적화를 몇 단계의 확산 단계로 제한하게 된다. 둘째, 사진처럼 사실적인 질감이나 정밀한 조명 효과와 같은 원하는 미적 품질을 달성하기 위해 보상 모델의 지속적인 오프라인 적응이 필요하다는 점이다. 다단계 노이즈 제거의 한계를 해결하기 위해, 우리는 보상 모델의 사전 정의된 노이즈 사전(Noise Prior)을 활용하여, 보간(interpolation)을 통해 임의의 시간 단계에서 원본 이미지를 효과적으로 복원할 수 있는 ‘Direct-Align’을 제안한다. 이는 확산 상태가 노이즈와 타겟 이미지 사이의 보간임을 이용한 방식으로, 후반 단계에서의 과적합(over-optimization)을 효과적으로 방지한다. 또한, 텍스트 조건부 신호로 보상을 정의하는 ‘의미론적 상대 선호 최적화(Semantic Relative Preference Optimization, SRPO)’를 도입한다. 이 방법은 긍정적 및 부정적 프롬프트 증강에 대응하여 보상을 온라인으로 조정할 수 있게 하여, 오프라인 보상 미세조정에 대한 의존도를 줄인다. 최적화된 노이즈 제거 및 온라인 보상 조정을 통해 FLUX 모델을 미세조정함으로써, 인간 평가 기준에서 사실성과 미적 품질이 3배 이상 향상됨을 확인하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
세부적인 인간 선호와 완전한 확산 경로를 직접 정렬하기 | 연구 논문 | HyperAI초신경