HyperAI초신경
9일 전

NoHumansRequired: 자율적 고품질 이미지 편집 트리플릿 마이닝

Maksim Kuprashevich; Grigorii Alekseenko; Irina Tolstykh; Georgii Fedorov; Bulat Suleimanov; Vladimir Dokholyan; Aleksandr Gordeev
NoHumansRequired: 자율적 고품질 이미지 편집 트리플릿 마이닝
초록

최근 생성 모델링 기술의 발전으로 인해 추가적인 사용자 입력 없이 자연어 지시사항에 따라 이미지를 편집할 수 있는 보조 도구가 가능해졌다. 이러한 모델들의 교육은 원본 이미지, 지시사항, 편집된 이미지로 구성된 수백만 개의 트리플렛(triplet)이 필요하다. 그러나 픽셀 단위로 정확한 예제를 수집하는 것은 어렵다. 각 편집 작업은 명시된 프롬프트 지정 영역만 영향을 미쳐야 하며, 스타일적 일관성을 유지하고, 물리적 타당성을 존중하며, 시각적 매력을 유지해야 한다. 그러나 강력한 자동 편집 품질 측정 지표가 부족하여 대규모 자동화는 어려운 실정이다. 본 연구에서는 다양한 분야, 해상도, 지시사항의 복잡도, 스타일에서 고정밀(high-fidelity) 트리플렛을 자동으로 수집하는 모듈형 파이프라인을 제시한다. 공개된 생성 모델을 기반으로 하며, 인간의 개입 없이 작동하는 본 시스템은 작업에 맞춤화된 Gemini 검증 모델을 사용하여 지시사항 준수도와 미학적 가치를 직접 평가함으로써, 세그멘테이션 또는 지정 모델을 사용할 필요가 없도록 한다. 이미지 역변환(inversion)과 구성적 부트스트래핑(compositional bootstrapping)을 통해 수집된 데이터를 약 2.2배 확장하여 대규모 고정밀 학습 데이터를 생성할 수 있다. 반복적인 주석(annotation) 단계를 자동화함으로써, 본 방법은 인간의 주석 작업 없이도 새로운 규모의 학습이 가능하게 한다. 본 연구 분야의 자원 집약적 특성을 고려하여 연구 접근성을 확대하기 위해, 358,000개의 고품질 트리플렛을 포함한 개방형 데이터셋 NHR-Edit을 공개한다. 가장 대규모의 교차 데이터셋 평가에서, NHR-Edit은 모든 공개 대안을 앞선다. 또한, 본 연구에서는 Bagel-NHR-Edit이라는 오픈소스로 튜닝된 Bagel 모델을 공개하며, 본 실험에서 최상의 성능을 달성한다.