数据集指南

这里汇总了超神经数据集的 使用方法 以及 常见问题

下载方式

  • HTTP(S) 直链下载:部分较小数据集(< 100 MB)我们推荐使用 HTTP(S) 直链下载。请访问具体的数据集页面查看是否提供直链支持
  • 数据集种子下载 – 对于普通用户,推荐如下:
    • Transmission:最常用的免费 BT 客户端,对超大资源(> 1 TB)兼容性好,性能优秀,推荐使用。支持 macOS 、 Windows 、 Unix 常见发行版。但由于众所周知的原因,Transmission 的下载地址目前存放于 GitHub,导致部分用户下载困难,因此我们为方便国内用户下载,对 Transmission 的下载进行了加速,您可以在下方找到通过国内中转镜像下载 Transmission 的地址
    • qBittorrent:界面基于 Qt 开发,支持 macOS 、 Windows 、 Unix 常见发行版。建立连接的速度快,对 WebSeed 协议支持最好。但对大文件支持一般,小文件以及有 WebSeed 的种子建议使用
    • aria2:C++ 编写的轻量级命令行下载工具,支持 BitTorrent 协议,可配合诸多 GUI 使用,对我们的 WebSeed 有良好的兼容性,推荐高级用户使用。详细使用方法可参考我们的 aria2 向导
  • 百度网盘下载:部分资源我们会保存在 百度网盘 进行分流

对于数据集做种,我们推荐使用 Transmission 、 rTorrent(+ruTorrent)进行做种

迅雷用户提醒:我们并没有对迅雷用户做任何限制,迅雷用户仍可以通过我们的做种服务器获得下载。但是迅雷下载速度不稳定,在处理超大种子时可能会遇到性能问题,尤其是某些资源在一段时间没有速度额度情况下迅雷会直接将资源判定为下载失败。并且没有文件校验,会有下载完成后文件损坏的情况。因此我们推荐使用其他客户端

下载 Transmission

对于无法下载或访问外网困难的用户,我们提供了 Transmission 的下载镜像:

通过国内中转镜像下载 Transmission

数据集做种/保种

  • 2 台位于海外的 seedboxes(美国两台+荷兰一台,各 1 Gbps 上行)
  • 1 台位于国内的服务器(中国联通,70 Mbps 上行)
  • 1 台位于国内的服务器(中国电信,500 Mbps 上行)
  • 1 台位于国内的服务器(中国电信,100 Mbps 上行,只提供部分数据集的做种加速)

个别较小的数据集(< 500 MB)我们提供 WebSeed 进行辅助做种。

我们在今后也会考虑使用 private tracker 来增加上传激励机制

常见问题解答(FAQ)

如何将分卷的压缩包解压?

如果您下载的数据集比较大,例如 AVSpeech,为了避免单文件大小超出系统限制,以及单目录下的文件总数超过文件系统的限制。我们会对这类数据集打包压缩处理

如果是 .z01 – .z0n + .zip 的形式…

这种格式为 ZIP 的分卷压缩。我们使用的分卷压缩参数为:

$ zip -0 -r data.zip dataset/ -s 10000m

与之对应的合并命令为:

$ zip -s 0 data.zip --out data-combined.zip

执行完合并操作后,可再执行解压操作:

$ unzip data-combined.zip

如果是 tar.0tar.n 的形式…

这种格式为 TAR 的分卷打包。我们使用的分卷参数为:

$ split -b 10000m data-combined.tar data.tar.

与之对应的合并命令为:

$ cat data.tar.0 data.tar.1 data.tar.2 data.tar.3 > data-combined.tar

执行完合并操作后,可再执行提取操作:

$ tar xvf data-combined.tar

如果您使用的是 Windows 操作系统,使用 7-Zip 可自动识别分卷压缩包

另外请注意,合并文件之前,请确保目标存储设备有足够的空余空间存储合并后的文件。例如,需要合并的分卷文件占用 200 GB 空间,执行合并操作的话则需要当前存储设备上有至少 200 GB 的可用空间

为什么下载没有速度?

由于数据集特殊性,BT 形式的下载无法像其他热门资源那样马上获取稳定的下载速度,所以请耐心等待 tracker 的广播。如果是家用宽带,建议联系宽带运营商的客服提供公网 IP 以获得更好的下载体验

另外建议避免使用迅雷客户端,虽然我们并没有对迅雷客户端做任何屏蔽以及限速,但有用户反馈迅雷客户端下载速度很慢或直接提示「下载失败」,如果遇到此问题可以尝试更换客户端

如果您遇到数据集无法下载,请联系微信:Hyperai01;如果您认为我们的做种服务器有连通性问题,可以尝试访问我们的 服务器状态 页面

下载速度慢(< 10 Mbps)?

如果遇到速度过慢,请尝试:

  • 切换到公网 IP,来获得更多的 peers
  • 关闭系统代理,通常情况下市面上售卖的各类代理服务都会禁用 BitTorrent 协议(BT 协议),由于我们有位于境外的做种服务器提供分流,如果您使用的代理服务刚好有相应的代理规则(例如所有境外流量走代理),则您与我们境外分流服务器的流量将被阻断,因此建议关闭系统代理或使用自行搭建未屏蔽 BT 流量的代理
  • 理论上如果您位于中国大陆,您可以通过使用支持 BT 流量的代理服务器获得更快的速度,理论上可以达到单用户 200+ Mbps 的下载速度。建议使用针对大陆优化过的美国线路(例如 CN2 GT 、 CN2 GIA)

下载的数据集不完整/有错误/断种?

请添加微信:Hyperai01 并联系我们