Discord에서 논의하기

5달 전

이미지 생성

이미지 투 이미지

Hongyu Li Manyuan Zhang Dian Zheng Ziyu Guo Yimeng Jia Kaituo Feng Hao Yu Yexin Liu Yan Feng Peng Pei

초록

지시 기반 이미지 편집은 이미지 생성 기반 모델의 발전을 바탕으로 주목받는 연구 분야로, 높은 미적 품질을 달성하였으나, 지시에 대한 따름 능력이 핵심 과제로 부상하고 있다. 기존의 접근 방식은 감독 학습 또는 강화 학습을 통해 지시 따름을 향상시키고 있으나, 본질적인 확률성과 사고의 부재로 인해 단일 회전(단일 턴) 성공률은 여전히 제한적이다. 본 연구에서는 편집 과정에서 '사고'를 하도록 설계된 사고 기반 편집 프레임워크를 제안한다. 이 프레임워크는 인간의 인지적 순환을 모방하여, 결과를 비판하고 지시를 보완하는 과정을 반복적으로 수행하며, 만족스러운 결과가 나올 때까지 생성을 반복한다. 구체적으로, 이 프레임워크의 사고 엔진으로서 단일 다중모달 언어모델(MLLM), EditThinker를 학습시켜 비판 점수, 사고 과정, 개선된 지시를 동시에 생성하도록 한다. 또한 강화 학습을 활용하여 EditThinker의 사고 과정과 편집 결과 간의 일관성을 강화함으로써, 더 정교한 지시 개선을 유도한다. 네 가지 벤치마크에서 실시한 광범위한 실험 결과, 본 연구 방법은 어떤 이미지 편집 모델의 지시 따름 능력도 크게 향상시킴을 입증하였다. 본 연구에서는 데이터 구축 프레임워크, 데이터셋, 모델을 공개하여 연구 공동체에 기여할 예정이다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

5달 전

이미지 생성

이미지 투 이미지

Hongyu Li Manyuan Zhang Dian Zheng Ziyu Guo Yimeng Jia Kaituo Feng Hao Yu Yexin Liu Yan Feng Peng Pei

초록

지시 기반 이미지 편집은 이미지 생성 기반 모델의 발전을 바탕으로 주목받는 연구 분야로, 높은 미적 품질을 달성하였으나, 지시에 대한 따름 능력이 핵심 과제로 부상하고 있다. 기존의 접근 방식은 감독 학습 또는 강화 학습을 통해 지시 따름을 향상시키고 있으나, 본질적인 확률성과 사고의 부재로 인해 단일 회전(단일 턴) 성공률은 여전히 제한적이다. 본 연구에서는 편집 과정에서 '사고'를 하도록 설계된 사고 기반 편집 프레임워크를 제안한다. 이 프레임워크는 인간의 인지적 순환을 모방하여, 결과를 비판하고 지시를 보완하는 과정을 반복적으로 수행하며, 만족스러운 결과가 나올 때까지 생성을 반복한다. 구체적으로, 이 프레임워크의 사고 엔진으로서 단일 다중모달 언어모델(MLLM), EditThinker를 학습시켜 비판 점수, 사고 과정, 개선된 지시를 동시에 생성하도록 한다. 또한 강화 학습을 활용하여 EditThinker의 사고 과정과 편집 결과 간의 일관성을 강화함으로써, 더 정교한 지시 개선을 유도한다. 네 가지 벤치마크에서 실시한 광범위한 실험 결과, 본 연구 방법은 어떤 이미지 편집 모델의 지시 따름 능력도 크게 향상시킴을 입증하였다. 본 연구에서는 데이터 구축 프레임워크, 데이터셋, 모델을 공개하여 연구 공동체에 기여할 예정이다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

EditThinker: 모든 이미지 편집기에서 반복적 추론을 해제하기 | 문서 | HyperAI초신경