Command Palette

Search for a command to run...

7일 전

EditScore: 이미지 편집을 위한 온라인 강화학습을 고정밀 보상 모델링을 통해 열기

Xin Luo Jiahao Wang Chenyuan Wu Shitao Xiao Xiyan Jiang Defu Lian Jiajun Zhang Dong Liu Zheng Liu

EditScore: 이미지 편집을 위한 온라인 강화학습을 고정밀 보상 모델링을 통해 열기

초록

지시문 기반 이미지 편집 기술은 놀라운 진전을 이뤘지만, 현재의 모델들은 복잡한 지시문 처리에 어려움을 겪으며 원하는 결과를 얻기 위해 다수의 샘플을 필요로 하는 문제가 여전히 존재한다. 강화학습(Reinforcement Learning, RL)은 이 문제에 대한 유망한 해결책을 제시할 수 있으나, 이미지 편집 분야에서의 적용은 고해상도이고 효율적인 보상 신호의 부재로 인해 심각하게 제한되어 왔다. 본 연구에서는 이러한 장벽을 극복하기 위한 종합적인 방법론을 제안하며, 최첨단의 전문화된 보상 모델 개발을 핵심으로 한다. 먼저, 편집 품질 평가를 체계적으로 수행할 수 있도록 설계된 EditReward-Bench라는 포괄적인 벤치마크를 도입한다. 이 벤치마크를 기반으로, 지시문 기반 이미지 편집의 품질을 평가하기 위한 보상 모델 시리즈인 EditScore(7B~72B 규모)를 개발한다. 정교한 데이터 수집 및 필터링 과정을 통해 EditScore는 독자적인 비공개 VLM(Vision-Language Model)의 성능과 효과적으로 동등한 수준에 도달한다. 또한 EditScore의 생성적 특성에 맞춰 설계된 효과적인 자기 앙상블 전략과 결합함으로써, 가장 큰 버전의 EditScore는 벤치마크에서 GPT-5를 초월하는 성능을 달성한다. 이후 우리는 고해상도의 보상 모델이 이미지 편집에서 온라인 강화학습을 구현하는 핵심 요소임을 입증한다. 실험 결과, 심지어 가장 큰 오픈소스 VLMs도 효과적인 학습 신호를 제공하지 못하는 반면, EditScore는 효율적이고 안정적인 정책 최적화를 가능하게 한다. 강력한 기반 모델인 OmniGen2에 본 프레임워크를 적용한 결과, 성능 향상이 크고 일관된 최종 모델이 도출되었다. 종합적으로 본 연구는 이미지 편집 분야에서 벤치마크 → 보상 모델링 → 강화학습 훈련에 이르는 최초의 체계적인 접근을 제시하며, 고해상도이면서 분야 전문화된 보상 모델이 이 분야에서 강화학습의 잠재력을 극대화하는 핵심임을 보여준다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
EditScore: 이미지 편집을 위한 온라인 강화학습을 고정밀 보상 모델링을 통해 열기 | 연구 논문 | HyperAI초신경