Command Palette
Search for a command to run...
EditThinker: 모든 이미지 편집기에서 반복적 추론을 해제하기
EditThinker: 모든 이미지 편집기에서 반복적 추론을 해제하기
초록
지시 기반 이미지 편집은 이미지 생성 기반 모델의 발전을 바탕으로 주목받는 연구 분야로, 높은 미적 품질을 달성하였으나, 지시에 대한 따름 능력이 핵심 과제로 부상하고 있다. 기존의 접근 방식은 감독 학습 또는 강화 학습을 통해 지시 따름을 향상시키고 있으나, 본질적인 확률성과 사고의 부재로 인해 단일 회전(단일 턴) 성공률은 여전히 제한적이다. 본 연구에서는 편집 과정에서 '사고'를 하도록 설계된 사고 기반 편집 프레임워크를 제안한다. 이 프레임워크는 인간의 인지적 순환을 모방하여, 결과를 비판하고 지시를 보완하는 과정을 반복적으로 수행하며, 만족스러운 결과가 나올 때까지 생성을 반복한다. 구체적으로, 이 프레임워크의 사고 엔진으로서 단일 다중모달 언어모델(MLLM), EditThinker를 학습시켜 비판 점수, 사고 과정, 개선된 지시를 동시에 생성하도록 한다. 또한 강화 학습을 활용하여 EditThinker의 사고 과정과 편집 결과 간의 일관성을 강화함으로써, 더 정교한 지시 개선을 유도한다. 네 가지 벤치마크에서 실시한 광범위한 실험 결과, 본 연구 방법은 어떤 이미지 편집 모델의 지시 따름 능력도 크게 향상시킴을 입증하였다. 본 연구에서는 데이터 구축 프레임워크, 데이터셋, 모델을 공개하여 연구 공동체에 기여할 예정이다.