数据集指南

这里汇总了超神经数据集的使用方法以及常见问题。

下载方式

超神经提供 3 种数据集下载方式:种子下载(最常见)、 HTTP(S) 直链下载和百度网盘下载。

* 数据集种子下载

通过数据集页面进行「数据集下载」(如下图),得到的是数据集种子文件,下载完成后需要解析种子。

对于种子解析,推荐使用以下 4 种方式:

  1. Transmission:最常用的免费 BT 客户端,对超大资源 (> 1 TB) 兼容性好,性能优秀,推荐使用。支持 macOS 、 Windows 、 Unix 常见发行版。 Transmission 下载镜像:Transmission 安装包下载
  2. qBittorrent:界面基于 Qt 开发,支持 macOS 、 Windows 、 Unix 常见发行版。建立连接的速度快,对 WebSeed 协议支持最好,但对大文件支持一般,小文件以及有 WebSeed 的种子建议使用。
  3. aria2:C++ 编写的轻量级命令行下载工具,支持 BitTorrent 协议,可配合诸多 GUI 使用,对超神经的 WebSeed 有良好的兼容性,推荐使用。详细使用方法可参考 aria2 向导
  4. 迅雷:界面直观,兼容多平台,解析种子迅速,尤其适合小文件和含 WebSeed 的种子,下载效率高。但是迅雷下载速度不稳定,在处理超大种子时可能会遇到性能问题,可能会有下载完成后文件损坏的情况。

* HTTP (S) 直链下载

部分较小数据集 (< 100 MB) 推荐使用 HTTP (S) 直链下载。请访问具体的数据集页面查看是否提供直链支持。

* 百度网盘下载

部分数据集会保存在百度网盘进行分流。

常见问题解答(FAQ)

1. 为什么种子下载没有速度?

由于数据集特殊性,BT 形式的下载无法像其他资源那样马上获取稳定的下载速度,所以请耐心等待 tracker 的广播。推荐使用公网 IP 以获得更快的下载速度,如:在阿里云开一个 windows instance,费用约 0.3 元/ GB(不含服务器租用费用)。

如果您认为超神经的做种服务器有连通性问题,可以尝试访问超神经服务器状态页面。

如果您遇到数据集无法下载,请联系微信:Hyperai01,或扫描下方二维码添加↓

2. 种子下载速度慢 (< 10 Mbps) 怎么办?

如果遇到速度过慢,请尝试:

  • 切换到公网 IP(如上文提到的「阿里云」),来获得更多的 peers 。
  • 关闭系统代理或使用自行搭建未屏蔽 BT 流量的代理。
  • 理论上如果您位于中国大陆,可以通过使用支持 BT 流量的代理服务器获得更快的速度,建议使用针对大陆优化过的美国线路(例如 CN2 GT 、 CN2 GIA),可以达到单用户 200+ Mbps 的下载速度。

3. 如何将分卷的压缩包解压?

如果您下载的数据集比较大,例如 AVSpeech,为了避免单文件大小超出系统限制,以及单目录下的文件总数超过文件系统的限制,超神经会对这类数据集打包压缩处理。

注意:合并文件之前,请确保目标存储设备有足够的空余空间存储合并后的文件。例如,需要合并的分卷文件占用 200 GB 空间,执行合并操作的话则需要当前存储设备上有至少 200 GB 的可用空间。

3.1 如果是 .z01 – .z0n + .zip 的形式

这种格式为 ZIP 的分卷压缩,超神经使用的分卷压缩参数为:

$ zip -0 -r data.zip dataset/ -s 10000m

与之对应的合并命令为:

$ zip -s 0 data.zip --out data-combined.zip

执行完合并操作后,可再执行解压操作:

$ unzip data-combined.zip

3.2 如果是 tar.0 – tar.n 的形式

这种格式为 TAR 的分卷打包,超神经使用的分卷压缩参数为:

$ split -b 10000m data-combined.tar data.tar.

与之对应的合并命令为:

$ cat data.tar.0 data.tar.1 data.tar.2 data.tar.3 > data-combined.tar

执行完合并操作后,可再执行提取操作:

$ tar xvf data-combined.tar

如果您使用的是 Windows 操作系统,使用 7-Zip 可自动识别分卷压缩包。

下载的数据集不完整/有错误/断种?

请添加微信:Hyperai01 联系我们。


数据集做种/保种

  • 2 台位于海外的 seedboxes(美国两台+荷兰一台,各 1 Gbps 上行)
  • 1 台位于国内的服务器(中国联通,70 Mbps 上行)
  • 1 台位于国内的服务器(中国电信,500 Mbps 上行)
  • 1 台位于国内的服务器(中国电信,100 Mbps 上行,只提供部分数据集的做种加速)

个别较小的数据集(< 500 MB)我们提供 WebSeed 进行辅助做种。


社区开源协议

本社区所有数据集由用户分享,仅供学术、科研和教学用途,不支持商业目的。如涉及侵犯个人或团体权益,请联系微信「Hyperai01」删除。