HyperAI초신경

Unsplash Lite 데이터 세트 이미지 검색 데이터 세트의 단순화된 버전

날짜

2년 전

크기

194.59 MB

기관

언스플래시

발행 주소

unsplash.com

라이선스

其他

Unsplash는 세계에서 가장 큰 사진 웹사이트 중 하나로, 전 세계 20만 명이 넘는 사진작가가 수백만 장의 고품질 고화질 사진을 제공합니다.

Unsplash는 2016년에 이미지 API를 공개했고, 그 이후로 매달 수백만 건의 호출과 다양한 사용 시나리오에 도달했습니다. 2020년 8월, Unsplash는 더 많은 학자와 연구 기관에 연구 자료를 제공하기 위해 두 개의 사진 검색 데이터 세트를 공개한다고 발표했습니다.

Unsplash 데이터 세트에는 두 가지 버전이 포함되어 있습니다.

데이터 세트의 라이트 버전(다운로드 링크는 이 버전입니다):상업적, 비상업적 시나리오에서 모두 사용할 수 있습니다. 총 25,000개의 키워드와 함께 25,000개의 자연을 주제로 한 Unsplash 사진에 대한 검색 정보가 포함되어 있습니다.

데이터 세트의 전체 버전:비상업적 용도로만 사용 가능합니다. 총 500만 개의 키워드와 200만 개의 고품질 Unsplash 사진에 대한 검색 정보가 포함되어 있습니다.

이 데이터 세트는 190M의 압축 패키지와 550M의 압축 해제된 패키지를 갖춘 단순화된 버전의 데이터 세트입니다. 여기에는 4개의 별도 TSV 파일이 포함되어 있습니다(참고: TSV 파일은 PostgreSQL 데이터베이스나 Python 환경에 로드할 수 있습니다).

  • 컬렉션: 82MB
    • Unsplash 사용자가 만든 사진 컬렉션에 대한 정보가 포함되어 있습니다. 여기에는 사진 ID(photo_id), 컬렉션 ID(collection_id), 컬렉션 제목(collection_title) 및 타임스탬프(photo_collected_at)와 같은 데이터가 포함됩니다.

  • 변환: 349MB
    • 검색 후 사용자가 선택한 이미지에 대한 정보를 포함합니다. 여기에는 사진 타임스탬프(convert_at), 키워드(keyword), 사진 ID(photo_id), 익명 사용자 ID(onymous_user_id), 사용자 위치(conversion_country) 데이터가 포함됩니다.

  • 키워드 : 104MB
    • 사용자가 검색한 사진 ID(photo_id), 검색한 키워드(keyword), 키워드와 이미지의 신뢰도(ai_service_1_confidence) 등의 데이터를 포함합니다.

  • 사진 : 6.5MB
    • 사진 ID(photo_id), URL(photo_image_url), 사진작가 정보(Photographer_username), 카메라 정보(exif_camera), 매개변수(exif_iso), 플랫폼 총 조회수(stats_views), 총 다운로드 수(stats_downloads), 촬영 장소의 지리적 좌표(ai_primary_landmark_name)가 포함됩니다.
Unsplash_Lite.torrent
시딩 1다운로드 중 0완료됨 789총 다운로드 횟수 1,533
  • Unsplash_Lite/
    • README.md
      1.26 KB
    • README.txt
      2.52 KB
      • data/
        • unsplash-research-dataset-lite-latest.zip
          194.59 MB