MMID 数据集是由宾夕法尼亚大学发布,是一个大规模多语言的图像数据集。并且数据集是双重平行的:对于每种语言,单词与表示单词的图像平行存储,并与单词翻译成英语(和相应的图像)平行。目前该数据集有 98 种语言,每种语言最多 10,000 个单词,此次下载仅提供中文版,详情可浏览:http://multilingual-images.org/
1 做种 0 下载 524 已完成
文件名 | 大小 |
---|---|
README.md | 1 KB |
README.txt | 1 KB |
chinese-text-warcs.tgz | 3 GB |
index-chinese-package.tsv | 125 KB |
metadata-chinese-package.jsonl | 83 MB |
mini-chinese-package.tgz | 146 MB |
scale-chinese-package.tgz | 6 GB |