초록

일관된 이미지 생성은 스토리텔링 및 캐릭터 디자인과 같은 응용 분야에서 필수적인 요소인 정체성, 스타일, 그리고 논리적 일관성을 여러 이미지 간에 충실하게 유지하는 것을 요구한다. 기존의 감독 학습 접근법은 시각적 일관성을 포괄하는 대규모 데이터셋의 부족과 인간의 인지적 선호도를 모델링하는 복잡성으로 인해 이 과제에 어려움을 겪는다. 본 논문에서는 강화학습(Reinforcement Learning, RL)이 데이터 없이도 복잡하고 주관적인 시각적 기준을 학습할 수 있다는 점에서 이 문제에 대한 유망한 대안이 될 수 있다고 주장한다. 이를 실현하기 위해, 전용 일관성 보상 모델과 효율적인 강화학습 알고리즘을 결합한 종합적인 프레임워크인 PaCo-RL을 제안한다. 첫 번째 구성 요소인 PaCo-Reward는 자동 하위 그림 쌍 생성을 통해 구축한 대규모 데이터셋으로 훈련된 쌍별 일관성 평가 모델이다. 이 모델은 작업 인식 지시문과 사고 과정(Chain-of-Thought, CoT) 추론을 통해 강화된 생성형 자기회귀 평가 메커니즘을 활용하여 일관성을 평가한다. 두 번째 구성 요소인 PaCo-GRPO는 새로운 해상도 분리 최적화 전략을 도입하여 강화학습 비용을 크게 감소시키며, 로그 조절된 다중 보상 집계 메커니즘을 통해 균형 잡히고 안정적인 보상 최적화를 보장한다. 두 가지 대표적인 하위 작업에 대한 광범위한 실험 결과는 PaCo-Reward가 인간의 시각적 일관성 인식과의 일치도를 크게 향상시킴을 보여주며, PaCo-GRPO는 향상된 훈련 효율성과 안정성을 바탕으로 최신 기술 수준의 일관성 성능을 달성함을 확인하였다. 이러한 결과들은 PaCo-RL이 일관된 이미지 생성을 위한 실용적이고 확장 가능한 솔루션으로서의 잠재력을 입증한다. 프로젝트 페이지는 다음 링크에서 확인할 수 있다: https://x-gengroup.github.io/HomePage_PaCo-RL/.

소스 PDF