The Unsplash Lite Dataset 图片检索数据集精简版

数据集下载 磁力链 HTTPS 下载 下载帮助

OpenBayes 注册即获得免费算力

Unsplash 是世界上最大的图片摄影网站之一,由全世界 20 多万摄影师参与贡献了数百万张高清优质的摄影作品。

Unsplash 在 2016 年开放了图片 API,截止目前已经达到了每月百万次调用,以及各种不同的使用场景。Unsplash 数据集于 2020 年八月宣布开放两个照片检索数据集,为更多的学者和科研机构提供研究资料。

Unsplash 数据集包含两个版本:

精简版数据集(下载链接为该版本):可用于商业和非商业使用场景。包含 2.5 万张自然主题的 Unsplash 照片的检索信息,共 2.5 万个关键词。

完整版数据集:仅限于非商业使用场景。包含 200 万张高质量 Unsplash 照片的检索信息,共 500 万个关键词。

本数据集为精简版数据集,压缩包 190M,解压后 550M ,包含四个单独的 TSV 文件(备注:TSV 文件可以在 PostgreSQL 数据库或 Pyhton 环境中加载)分别为:

  • Collections : 82 MB
    • 包含 Unsplash 用户创建的照片收藏夹的信息:包括照片的 ID(photo_id)、收藏夹的 ID(collection_id)、收藏夹的标题 (collection_title) 和时间戳 (photo_collected_at) 等数据;

  • Conversions : 349 MB
    • 包含用户搜索后选择的图像信息:包括照片时间戳(convert_at)、关键词(keyword)、照片 ID(photo_id)、脱敏后的用户 ID(onymous_user_id)和用户地理位置(conversion_country)等数据;

  • Keywords : 104 MB
    • 包含用户搜索的照片 ID(photo_id)、搜索的关键字词(keyword)、关键字与图片的置信值(ai_service_1_confidence)等数据;

  • Photos : 6.5 MB
    • 包含照片 ID(photo_id)、url(photo_image_url)、摄影师信息(Photographer_username)、相机信息(exif_camera)、参数(exif_iso)、平台查看总次数(stats_views)、下载总次数(stats_downloads)、拍摄地地理坐标(ai_primary_landmark_name)
2 做种 0 下载 457 已完成
文件名大小
README.md1 KB
README.txt1 KB
unsplash-research-dataset-lite-latest.zip194 MB