
摘要
作物产量是一个由多种因素决定的高度复杂的性状,这些因素包括基因型、环境及其相互作用。准确的产量预测需要对产量与这些交互因素之间的功能关系有基本的理解,而揭示这种关系则需要全面的数据集和强大的算法。在2018年先正达作物挑战赛中,先正达公司发布了多个大型数据集,记录了2008年至2016年间在2,247个地点种植的2,267种玉米杂交种的基因型和产量表现,并要求参赛者预测2017年的产量表现。作为获胜团队之一,我们设计了一种利用最新建模和解决方案技术的深度神经网络(DNN)方法。我们的模型被发现具有较高的预测准确性,使用预测天气数据时,验证数据集的均方根误差(RMSE)为平均产量的12%和标准差的50%。如果使用完美的天气数据,RMSE将降低到平均产量的11%和标准差的46%。我们还基于训练好的DNN模型进行了特征选择,成功地减少了输入空间的维度,而没有显著降低预测准确性。计算结果表明,该模型显著优于其他流行的方法,如Lasso、浅层神经网络(SNN)和回归树(RT)。结果还显示,环境因素对作物产量的影响大于基因型。