
摘要
在深度学习模型训练过程中进行诊断或探索性分析极具挑战性,但往往又是基于逐步获取的观测数据作出一系列决策所必需的。目前可用的系统仅限于监控在训练开始前就已预先指定的日志数据,每当需要获取新的信息时,都必须经历“停止—修改—重启”的循环,导致训练流程效率低下。这一局限性使得交互式探索与诊断任务难以开展,给模型开发过程带来了冗长而繁琐的迭代周期。为此,我们提出了一种新型系统,支持用户对正在运行的训练过程进行交互式查询,实时获取动态信息,并可将这些信息以多种可视化形式同时呈现于多个显示界面。为实现这一目标,我们采用一种基于Map-Reduce范式的流式数据处理模型,将深度学习训练过程中的各类探索性检查与诊断任务抽象为可配置的流处理规范,该方法已为众多数据科学家所熟悉。通过定义可组合的基本操作原语,我们的系统设计在本质上区别于现有系统,实现了更高的通用性与可扩展性。该系统的开源实现已作为TensorWatch项目发布,可在 https://github.com/microsoft/tensorwatch 获取。