8일 전

샘플링 앤 스텝, 청크 단위 최적화: 텍스트에서 이미지 생성을 위한 청크 수준 GRPO

Yifu Luo Penghui Du Bo Li Sinan Du Tiantian Zhang Yongzhe Chang Kai Wu Kun Gai Xueqian Wang

초록

그룹 상대적 정책 최적화(Group Relative Policy Optimization, GRPO)는 흐름 매칭 기반의 텍스트에서 이미지 생성(T2I)에 큰 잠재력을 보여주고 있으나, 두 가지 주요한 한계에 직면해 있다. 즉, 보상 할당의 정확도 부족과 생성 과정의 시간적 동역학을 무시하는 문제이다. 본 연구에서는 단계 단위의 최적화 패러다임을 청크 단위로 전환함으로써 이 두 문제를 효과적으로 완화할 수 있음을 주장한다. 이러한 사고를 기반으로, 본 논문은 T2I 생성을 위한 첫 번째 청크 단위 GRPO 기반 접근법인 Chunk-GRPO를 제안한다. 핵심 아이디어는 연속된 단계를 흐름 매칭의 내재적 시간적 동역학을 반영하는 일관성 있는 '청크(chunk)'로 그룹화하고, 정책을 청크 단위에서 최적화하는 것이다. 또한, 성능 향상을 위한 선택적 가중 샘플링 전략을 도입한다. 광범위한 실험을 통해 Chunk-GRPO가 선호도 일치 및 이미지 품질 측면에서 우수한 성능을 달성함을 확인하였으며, 이는 GRPO 기반 방법에 있어 청크 단위 최적화의 전망을 입증한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

샘플링 앤 스텝, 청크 단위 최적화: 텍스트에서 이미지 생성을 위한 청크 수준 GRPO

Yifu Luo Penghui Du Bo Li Sinan Du Tiantian Zhang Yongzhe Chang Kai Wu Kun Gai Xueqian Wang

초록

AI로 AI 구축

Hyper Newsletters