Public Domain 12M(약칭 PD12M)은 Spawning이 2024년에 만든 대규모 이미지-텍스트 데이터 세트입니다. 여기에는 합성 캡션이 포함된 1,240만 개의 고품질 퍼블릭 도메인 및 CC0 라이선스 이미지가 포함되어 있으며, 이는 주로 텍스트-이미지 모델을 학습하는 데 사용됩니다. PD12M은 현재 가장 큰 퍼블릭 도메인 이미지-텍스트 데이터 세트입니다. 방대한 규모와 명확한 저작권 표시로 저작권 우려를 최소화하면서 AI 모델을 훈련하기 위한 견고한 기반을 제공합니다. 관련 논문 결과는 다음과 같습니다.퍼블릭 도메인 12M: 새로운 거버넌스 메커니즘을 갖춘 고도로 미적인 이미지-텍스트 데이터 세트".
PD12M의 데이터 출처에는 갤러리, 도서관, 기록 보관소, 박물관(GLAM) 및 위키미디어 커먼즈가 포함되며, 신중한 검토와 거버넌스를 통해 데이터의 품질과 보안이 보장됩니다. 데이터 세트 구축 과정은 이미지 수집, 저작권 확인, 이미지 다운로드, 콘텐츠 필터링, 캡션 생성 등 여러 단계로 구성됩니다. PD12M은 또한 Source.Plus 플랫폼을 통해 커뮤니티 중심의 데이터 거버넌스 메커니즘을 도입하여 데이터 세트의 지속적인 개선과 유지 관리를 지원했습니다.
또한 PD12M은 광범위한 응용 분야를 가지고 있으며, 주로 텍스트-이미지 생성 모델의 훈련과 평가에 사용되어 컴퓨터 비전과 자연어 처리의 발전을 촉진하는 것을 목표로 합니다. 이 데이터 세트는 AI 분야에 대한 풍부한 교육 리소스를 제공할 뿐만 아니라, 책임 있는 AI 관행에 대한 모범 사례를 보여주고 공공 AI 리소스의 보호 및 활용을 촉진합니다.
