MultiEdit 멀티모달 이미지 편집 데이터 세트
MultiEdit은 inclusionAI가 뉴사우스웨일스 대학교와 홍콩 대학교와 협력하여 2025년에 출시한 포괄적이고 대규모의 지침 기반 이미지 편집 데이터 세트입니다.MultiEdit: 다양하고 어려운 작업에 대한 지침 기반 이미지 편집 발전"는 복잡하고 다양한 이미지 편집 작업에서 모델의 역량을 개선하는 것을 목표로 합니다.
이 데이터세트는 약 107,000개의 샘플을 포함하고 있으며, 6가지 주요 편집 작업과 객체 참조 편집, 인물 참조 편집, 텍스트 및 인터페이스 요소 조정, 원근 변환, 스타일 변환 등 56가지 편집 유형 하위 범주를 포괄합니다. 이 데이터는 대규모 멀티모달 모델(예: GPT-4o 및 GPT-Image-1)을 기반으로 하는 생성 프로세스를 통해 도출되었습니다. 이 접근 방식은 편집 샘플의 관련성과 일관성을 보장하기 위해 명령어 구성, 이미지 생성, 품질 검사를 결합합니다. 데이터 구조는 "원본 이미지 - 편집 명령어 - 편집 결과"라는 세 가지 요소와 편집 범주 및 소스에 대한 정보로 구성됩니다.
데이터 구성
- 객체 참조 편집
- 색상, 모양, 크기, 위치 등 특정 객체의 속성을 수정하는 데 사용됩니다.
- 여기에는 4가지 유형의 편집이 포함되어 있으며, 총 10,051개의 샘플(훈련 세트에 9,851개, 테스트 세트에 200개)이 있습니다.
- 개인 참조 편집
- 자세, 옷차림, 헤어스타일, 피부색, 체형 등 이미지 속 사람들의 모습을 편집합니다.
- 여기에는 5가지 유형의 편집이 포함되어 있으며, 총 7,141개의 샘플(훈련 세트에 6,891개, 테스트 세트에 250개)이 있습니다.
- 텍스트 편집
- 이미지의 텍스트 요소(예: 글꼴 스타일, 텍스트 내용, 표시 매체, 색상)를 수정합니다.
- 여기에는 4가지 유형의 편집이 포함되어 있으며, 총 4,060개의 샘플(훈련 세트에 3,860개, 테스트 세트에 200개)이 있습니다.
- GUI 편집
- iOS, Android 및 웹 인터페이스를 포함하여 그래픽 사용자 인터페이스(GUI) 요소의 아이콘 속성과 디스플레이 미디어를 편집하는 데 사용됩니다.
- 여기에는 2가지 유형의 편집이 포함되어 있으며, 총 2,880개의 샘플(훈련 세트에 2,780개, 테스트 세트에 100개)이 있습니다.
- 편집 보기
- 사람, 랜드마크, 일반 사물 등 이미지 주제에 대한 다양한 관점을 생성합니다.
- 여기에는 3가지 유형의 편집이 포함되어 있으며, 총 28,205개의 샘플(훈련 세트에 28,055개, 테스트 세트에 150개)이 있습니다.
- 스타일 전환
- 고전적인 예술 형태부터 현대적인 디지털 미학까지, 이미지를 38가지 예술 스타일로 변환합니다.
- 여기에는 38개의 편집 유형과 총 56,297개의 샘플(훈련 세트에 55,097개, 테스트 세트에 200개)이 포함되어 있습니다.