Command Palette
Search for a command to run...
FireCaffe:计算集群上的近线性加速深度神经网络训练
FireCaffe:计算集群上的近线性加速深度神经网络训练
Forrest N. Iandola Khalid Ashraf Matthew W. Moskewicz Kurt Keutzer
摘要
长时间训练高精度深度神经网络(DNN)阻碍了新DNN架构的研究,并减缓了高精度DNN的开发进程。本文介绍了FireCaffe,该工具成功地实现了在GPU集群上扩展深度神经网络训练的目标。我们还提出了一系列最佳实践,以帮助比较在扩展和加速深度神经网络训练方法方面的进展。分布式算法的速度和可扩展性几乎总是受到服务器间通信开销的限制;深度神经网络训练也不例外。因此,关键在于尽可能减少通信开销,同时不降低所训练DNN模型的精度。我们的方法基于三个核心支柱。首先,我们选择能够实现GPU服务器之间高带宽通信的网络硬件——Infiniband或Cray互连是理想的选择。其次,我们考虑了多种通信算法,并发现相比于传统的参数服务器方法,归约树算法更为高效且具有更好的可扩展性。第三,我们可选地增加批处理大小以减少DNN训练过程中的总通信量,并识别出能够在大批次训练时重现小批次精度的超参数。在使用ImageNet数据集对GoogLeNet和Network-in-Network进行训练时,我们在128个GPU组成的集群上分别实现了47倍和39倍的加速效果。