MultiEdit 멀티모달 이미지 편집 데이터 세트

날짜

4일 전

기관

포용성AI
홍콩대학교
뉴 사우스 웨일즈 대학교

발행 주소

huggingface.co

논문 URL

2509.14638

라이선스

Apache 2.0

다운로드 도움말

MultiEdit은 inclusionAI가 뉴사우스웨일스 대학교와 홍콩 대학교와 협력하여 2025년에 출시한 포괄적이고 대규모의 지침 기반 이미지 편집 데이터 세트입니다.MultiEdit: 다양하고 어려운 작업에 대한 지침 기반 이미지 편집 발전"는 복잡하고 다양한 이미지 편집 작업에서 모델의 역량을 개선하는 것을 목표로 합니다.

이 데이터세트는 약 107,000개의 샘플을 포함하고 있으며, 6가지 주요 편집 작업과 객체 참조 편집, 인물 참조 편집, 텍스트 및 인터페이스 요소 조정, 원근 변환, 스타일 변환 등 56가지 편집 유형 하위 범주를 포괄합니다. 이 데이터는 대규모 멀티모달 모델(예: GPT-4o 및 GPT-Image-1)을 기반으로 하는 생성 프로세스를 통해 도출되었습니다. 이 접근 방식은 편집 샘플의 관련성과 일관성을 보장하기 위해 명령어 구성, 이미지 생성, 품질 검사를 결합합니다. 데이터 구조는 "원본 이미지 - 편집 명령어 - 편집 결과"라는 세 가지 요소와 편집 범주 및 소스에 대한 정보로 구성됩니다.

데이터 구성

  • 객체 참조 편집
    • 색상, 모양, 크기, 위치 등 특정 객체의 속성을 수정하는 데 사용됩니다.
    • 여기에는 4가지 유형의 편집이 포함되어 있으며, 총 10,051개의 샘플(훈련 세트에 9,851개, 테스트 세트에 200개)이 있습니다.
  • 개인 참조 편집
    • 자세, 옷차림, 헤어스타일, 피부색, 체형 등 이미지 속 사람들의 모습을 편집합니다.
    • 여기에는 5가지 유형의 편집이 포함되어 있으며, 총 7,141개의 샘플(훈련 세트에 6,891개, 테스트 세트에 250개)이 있습니다.
  • 텍스트 편집
    • 이미지의 텍스트 요소(예: 글꼴 스타일, 텍스트 내용, 표시 매체, 색상)를 수정합니다.
    • 여기에는 4가지 유형의 편집이 포함되어 있으며, 총 4,060개의 샘플(훈련 세트에 3,860개, 테스트 세트에 200개)이 있습니다.
  • GUI 편집
    • iOS, Android 및 웹 인터페이스를 포함하여 그래픽 사용자 인터페이스(GUI) 요소의 아이콘 속성과 디스플레이 미디어를 편집하는 데 사용됩니다.
    • 여기에는 2가지 유형의 편집이 포함되어 있으며, 총 2,880개의 샘플(훈련 세트에 2,780개, 테스트 세트에 100개)이 있습니다.
  • 편집 보기
    • 사람, 랜드마크, 일반 사물 등 이미지 주제에 대한 다양한 관점을 생성합니다.
    • 여기에는 3가지 유형의 편집이 포함되어 있으며, 총 28,205개의 샘플(훈련 세트에 28,055개, 테스트 세트에 150개)이 있습니다.
  • 스타일 전환
    • 고전적인 예술 형태부터 현대적인 디지털 미학까지, 이미지를 38가지 예술 스타일로 변환합니다.
    • 여기에는 38개의 편집 유형과 총 56,297개의 샘플(훈련 세트에 55,097개, 테스트 세트에 200개)이 포함되어 있습니다.