
摘要
本文旨在分析深度学习在表格数据处理中的有效性。长期以来,决策树及其集成方法被认为是该领域的主流方法,而深度神经网络则被认为仅适用于计算机视觉等特定任务。然而,深度神经网络本质上是一种基于梯度的层次化表示构建框架,这一核心特性应能为通用结构化(表格)数据提供最优处理能力,而不仅限于图像矩阵或音频频谱图。本文通过Yandex Shifts挑战赛中的“天气预测”赛道(即Yandex Shifts天气预测任务)来探讨这一问题。该任务本质上是经典表格数据回归问题的一种变体,同时也与机器学习中的另一个关键问题——泛化能力与不确定性——密切相关。本文提出了一种端到端的算法,用于解决表格数据上的带不确定性回归问题,其核心思想融合了四个关键策略:(1)自归一化神经网络的深度集成;(2)将回归问题建模为对高斯目标误差分布参数的估计;(3)分层多任务学习;(4)简化的数据预处理方法。该算法的三种不同变体分别在Yandex Shifts天气预测挑战赛中位列排行榜前三名。本文认为,这一成功源于深度学习算法所具备的根本性优势,并试图从理论上加以论证。