在 Discord 上讨论

1 年前

高性能计算

卷积神经网络

Forrest N. Iandola Khalid Ashraf Matthew W. Moskewicz Kurt Keutzer

摘要

长时间训练高精度深度神经网络（DNN）阻碍了新DNN架构的研究，并减缓了高精度DNN的开发进程。本文介绍了FireCaffe，该工具成功地实现了在GPU集群上扩展深度神经网络训练的目标。我们还提出了一系列最佳实践，以帮助比较在扩展和加速深度神经网络训练方法方面的进展。分布式算法的速度和可扩展性几乎总是受到服务器间通信开销的限制；深度神经网络训练也不例外。因此，关键在于尽可能减少通信开销，同时不降低所训练DNN模型的精度。我们的方法基于三个核心支柱。首先，我们选择能够实现GPU服务器之间高带宽通信的网络硬件——Infiniband或Cray互连是理想的选择。其次，我们考虑了多种通信算法，并发现相比于传统的参数服务器方法，归约树算法更为高效且具有更好的可扩展性。第三，我们可选地增加批处理大小以减少DNN训练过程中的总通信量，并识别出能够在大批次训练时重现小批次精度的超参数。在使用ImageNet数据集对GoogLeNet和Network-in-Network进行训练时，我们在128个GPU组成的集群上分别实现了47倍和39倍的加速效果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

在 Discord 上讨论

1 年前

高性能计算

卷积神经网络

Forrest N. Iandola Khalid Ashraf Matthew W. Moskewicz Kurt Keutzer

摘要

长时间训练高精度深度神经网络（DNN）阻碍了新DNN架构的研究，并减缓了高精度DNN的开发进程。本文介绍了FireCaffe，该工具成功地实现了在GPU集群上扩展深度神经网络训练的目标。我们还提出了一系列最佳实践，以帮助比较在扩展和加速深度神经网络训练方法方面的进展。分布式算法的速度和可扩展性几乎总是受到服务器间通信开销的限制；深度神经网络训练也不例外。因此，关键在于尽可能减少通信开销，同时不降低所训练DNN模型的精度。我们的方法基于三个核心支柱。首先，我们选择能够实现GPU服务器之间高带宽通信的网络硬件——Infiniband或Cray互连是理想的选择。其次，我们考虑了多种通信算法，并发现相比于传统的参数服务器方法，归约树算法更为高效且具有更好的可扩展性。第三，我们可选地增加批处理大小以减少DNN训练过程中的总通信量，并识别出能够在大批次训练时重现小批次精度的超参数。在使用ImageNet数据集对GoogLeNet和Network-in-Network进行训练时，我们在128个GPU组成的集群上分别实现了47倍和39倍的加速效果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供