10일 전

에코-4오: GPT-4o 합성 이미지를 활용한 이미지 생성 향상

Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, et al
에코-4오: GPT-4o 합성 이미지를 활용한 이미지 생성 향상
초록

최근 GPT-4o는 이미지 생성 성능이 뛰어나 주목받고 있으나, 오픈소스 모델들은 여전히 그에 미치지 못하고 있다. 여러 연구에서 GPT-4o로부터 생성된 이미지 데이터를 추출하여 오픈소스 모델의 성능을 향상시키는 방식의 지식 정제(knowledge distillation) 기법이 탐구되었으며, 상당한 진전을 이뤘다. 그러나 여전히 중요한 질문이 남아 있다. 현실 세계의 이미지 데이터셋은 이미 고품질 데이터의 자연스러운 원천을 제공하고 있음에도 불구하고, 왜 GPT-4o가 생성한 합성 이미지 데이터를 사용해야 하는가? 본 연구에서는 합성 이미지의 두 가지 핵심적 장점을 규명한다. 첫째, 현실 데이터셋에서 드물게 발생하는 시나리오, 예를 들어 초현실적인 판타지 또는 다중 참조 이미지 생성과 같은 사용자 쿼리에서 자주 등장하는 상황을 보완할 수 있다. 둘째, 정제되고 통제 가능한 지도 신호를 제공한다. 현실 세계 데이터는 복잡한 배경 노이즈와 텍스트 설명과 이미지 콘텐츠 간의 본질적 불일치를 포함하는 경우가 많지만, 합성 이미지는 순수한 배경과 긴 꼬리(long-tailed) 분포의 지도 신호를 제공함으로써 텍스트-이미지 정렬의 정확도를 높이는 데 기여한다. 이러한 통찰을 바탕으로, 우리는 GPT-4o를 활용해 생성한 규모 18만 건의 합성 데이터셋인 Echo-4o-Image를 제안한다. 이 데이터셋은 현실 세계 데이터의 커버리지 부족 부분을 보완하는 데 초점을 맞추어 설계되었다. 본 데이터셋을 활용해 통합 다모달 생성 기반 모델인 Bagel을 미세조정하여 Echo-4o를 도출하였다. 또한 이미지 생성 능력을 보다 정교하고 도전적인 방식으로 평가하기 위해 두 가지 새로운 평가 벤치마크를 제안한다. 하나는 지시어의 복잡성을 높여 점수 포화 현상을 완화하는 GenEval++이며, 다른 하나는 상상력 기반 콘텐츠의 이해와 생성 능력을 동시에 평가하는 Imagine-Bench이다. Echo-4o는 기준 평가 벤치에서 강력한 성능을 보였다. 더불어, Echo-4o-Image를 다른 기초 모델(예: OmniGen2, BLIP3-o)에 적용했을 때 여러 지표에서 일관된 성능 향상이 나타나, 본 데이터셋의 뛰어난 전이 가능성(transferability)을 입증하였다.

에코-4오: GPT-4o 합성 이미지를 활용한 이미지 생성 향상 | 최신 연구 논문 | HyperAI초신경