Command Palette
Search for a command to run...
NoHumansRequired: 자율적 고품질 이미지 편집 트리플릿 마이닝
NoHumansRequired: 자율적 고품질 이미지 편집 트리플릿 마이닝
Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh Georgii Fedorov Bulat Suleimanov Vladimir Dokholyan Aleksandr Gordeev
초록
최근 생성 모델링 기술의 발전으로 인해 추가적인 사용자 입력 없이 자연어 지시사항에 따라 이미지를 편집할 수 있는 보조 도구가 가능해졌다. 이러한 모델들의 교육은 원본 이미지, 지시사항, 편집된 이미지로 구성된 수백만 개의 트리플렛(triplet)이 필요하다. 그러나 픽셀 단위로 정확한 예제를 수집하는 것은 어렵다. 각 편집 작업은 명시된 프롬프트 지정 영역만 영향을 미쳐야 하며, 스타일적 일관성을 유지하고, 물리적 타당성을 존중하며, 시각적 매력을 유지해야 한다. 그러나 강력한 자동 편집 품질 측정 지표가 부족하여 대규모 자동화는 어려운 실정이다. 본 연구에서는 다양한 분야, 해상도, 지시사항의 복잡도, 스타일에서 고정밀(high-fidelity) 트리플렛을 자동으로 수집하는 모듈형 파이프라인을 제시한다. 공개된 생성 모델을 기반으로 하며, 인간의 개입 없이 작동하는 본 시스템은 작업에 맞춤화된 Gemini 검증 모델을 사용하여 지시사항 준수도와 미학적 가치를 직접 평가함으로써, 세그멘테이션 또는 지정 모델을 사용할 필요가 없도록 한다. 이미지 역변환(inversion)과 구성적 부트스트래핑(compositional bootstrapping)을 통해 수집된 데이터를 약 2.2배 확장하여 대규모 고정밀 학습 데이터를 생성할 수 있다. 반복적인 주석(annotation) 단계를 자동화함으로써, 본 방법은 인간의 주석 작업 없이도 새로운 규모의 학습이 가능하게 한다. 본 연구 분야의 자원 집약적 특성을 고려하여 연구 접근성을 확대하기 위해, 358,000개의 고품질 트리플렛을 포함한 개방형 데이터셋 NHR-Edit을 공개한다. 가장 대규모의 교차 데이터셋 평가에서, NHR-Edit은 모든 공개 대안을 앞선다. 또한, 본 연구에서는 Bagel-NHR-Edit이라는 오픈소스로 튜닝된 Bagel 모델을 공개하며, 본 실험에서 최상의 성능을 달성한다.