这里汇总了超神经数据集的使用方法以及常见问题。
超神经提供 3 种数据集下载方式:种子下载(最常见)、 HTTP(S) 直链下载和百度网盘下载。
* 数据集种子下载
通过数据集页面进行「数据集下载」(如下图),得到的是数据集种子文件,下载完成后需要解析种子。
对于种子解析,推荐使用以下 4 种方式:
* HTTP (S) 直链下载
部分较小数据集 (< 100 MB) 推荐使用 HTTP (S) 直链下载。请访问具体的数据集页面查看是否提供直链支持。
* 百度网盘下载
部分数据集会保存在百度网盘进行分流。
由于数据集特殊性,BT 形式的下载无法像其他资源那样马上获取稳定的下载速度,所以请耐心等待 tracker 的广播。推荐使用公网 IP 以获得更快的下载速度,如:在阿里云开一个 windows instance,费用约 0.3 元/ GB(不含服务器租用费用)。
如果您认为超神经的做种服务器有连通性问题,可以尝试访问超神经服务器状态页面。
如果您遇到数据集无法下载,请联系微信:Hyperai01,或扫描下方二维码添加↓
如果遇到速度过慢,请尝试:
如果您下载的数据集比较大,例如 AVSpeech,为了避免单文件大小超出系统限制,以及单目录下的文件总数超过文件系统的限制,超神经会对这类数据集打包压缩处理。
注意:合并文件之前,请确保目标存储设备有足够的空余空间存储合并后的文件。例如,需要合并的分卷文件占用 200 GB 空间,执行合并操作的话则需要当前存储设备上有至少 200 GB 的可用空间。
这种格式为 ZIP 的分卷压缩,超神经使用的分卷压缩参数为:
$ zip -0 -r data.zip dataset/ -s 10000m
与之对应的合并命令为:
$ zip -s 0 data.zip --out data-combined.zip
执行完合并操作后,可再执行解压操作:
$ unzip data-combined.zip
这种格式为 TAR 的分卷打包,超神经使用的分卷压缩参数为:
$ split -b 10000m data-combined.tar data.tar.
与之对应的合并命令为:
$ cat data.tar.0 data.tar.1 data.tar.2 data.tar.3 > data-combined.tar
执行完合并操作后,可再执行提取操作:
$ tar xvf data-combined.tar
如果您使用的是 Windows 操作系统,使用 7-Zip 可自动识别分卷压缩包。
请添加微信:Hyperai01 联系我们。
个别较小的数据集(< 500 MB)我们提供 WebSeed 进行辅助做种。
本社区所有数据集由用户分享,仅供学术、科研和教学用途,不支持商业目的。如涉及侵犯个人或团体权益,请联系微信「Hyperai01」删除。