4일 전

MultiEdit: 다양한 및 도전적인 작업에서 지시 기반 이미지 편집의 발전

Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, et al
MultiEdit: 다양한 및 도전적인 작업에서 지시 기반 이미지 편집의 발전
초록

현재 지시 기반 이미지 편집(IBIE) 기법은 기존 데이터셋의 편집 유형과 샘플 수가 제한되어 있어 도전적인 편집 작업에 한계를 보인다. 또한 전통적인 데이터셋 구축 방식은 노이즈가 포함된 이미지-캡션 쌍을 포함하는 경우가 많아, 모델에 편향을 유발하고 복잡한 편집 환경에서의 성능을 제한할 수 있다. 이러한 문제를 해결하기 위해 우리는 107,000개 이상의 고품질 이미지 편집 샘플을 포함하는 종합적인 데이터셋인 MultiEdit을 제안한다. 이 데이터셋은 18가지의 비스타일 전이형 편집 유형과 38가지의 스타일 전이 작업을 통해 6가지 도전적인 편집 작업을 포괄하며, 고도화된 스타일 전이부터 사람 참조 편집, 이미지 내 텍스트 편집과 같은 복잡한 의미적 작업에 이르기까지 광범위한 범위를 커버한다. 우리는 두 개의 다중모달 대규모 언어 모델(MLLM)을 활용하여 시각적 적응형 편집 지시어를 생성하고, 높은 사실성의 편집 이미지를 생성하는 새로운 데이터셋 구축 파이프라인을 도입하였다. 광범위한 실험을 통해, 제안한 MultiEdit-Test 벤치마크에서 고도화된 편집 작업에 대한 모델 성능이 MultiEdit-Train 데이터셋으로 기초 오픈소스 모델을 미세조정함으로써 크게 향상됨을 입증하였으며, 동시에 기존 표준 편집 벤치마크에서의 성능도 효과적으로 유지함을 확인하였다. 우리는 MultiEdit이 더 다양한 도전적인 IBIE 능력을 연구하는 데 있어 귀중한 자원이 될 것이라고 믿는다. 본 데이터셋은 다음 URL에서 제공된다: https://[URL]