联合国预测，2050 年世界人口预计达到 91 亿，全球对粮食的需求量将增加 70% 。
然而，由于世界农业发展不均衡，很多地区的粮食产量尚无法被准确统计，因此无法对这些区域的农业发展做出合理规划。现有的粮食产量统计方法则难以推广或是需要较高的科技水平。
为此，京都大学的研究者通过卷积神经网络 (CNN) 对农田照片进行分析，高效准确地对当地的粮食产量进行了统计，为促进全球农业发展提供了新方法。

作者 | 雪菜

编辑 | 三羊

本文首发于 HyperAI 超神经微信公众平台~

受人口增长、收入增加以及生物燃料广泛使用的影响，2050 年全球对粮食的需求量将增加 70% 。

然而，由于全球气候变暖和生物多样性下降，世界各地粮食产量极易受环境变化影响，且区域间发展不均衡。

图 1：2020 年全球谷物产量地图

可以看到，中国、美国、印度和巴西是主要的产粮地，而南半球的粮食产量相对较低。而且，由于南半球的农业生产力较低，其粮食产量很难被准确统计。因此，我们很难对当地的农业生产力进行有效评估，更无法提供有效的增产手段。

目前有 3 种常用的粮食产量统计方法，包括自我汇报、实割实测和遥感统计。前两种方法很难大规模推广，而遥感技术的使用则会受到当地科技水平的制约。

为此，京都大学的研究者利用卷积神经网络 (CNN)，对实地拍摄的农田照片进行分析，进而对当地的粮食产量进行统计。结果显示，CNN 模型可以对不同光照条件下的收割期和成熟后期的水稻产量进行迅速、准确的统计。这一成果已发表于《Plant Phenomics》。

论文链接：

https://spj.science.org/doi/10.34133/plantphenomics.0073

实验过程

1. 建立数据库：水稻冠层照片 + 粮食产量

研究人员在 7 个国家的 20 块农田中采集了水稻照片和粮食产量。水稻成熟后，用数码相机在水稻冠层上 0.8 至 0.9 米的高度，垂直向下拍摄，得到面积 1 m² 水稻的 RGB 照片。

注：水稻的冠层是水稻枝叶稠密的顶层，是植物进行光合作用的主要部位。

随后，他们改变了拍摄角度、时间和时期，并在部分实验中逐次摘掉了水稻的花序，以探究 CNN 模型预测产量的机制。最终他们从 4,820 个拍摄地点得到了 462 种水稻的 22,067 张 RGB 照片。

实验中粮食产量为粗粒产量，包括水稻实粒和空粒的总重。统计得到的粮食产量在 0.1 t/ha（吨每公顷）和 16.1 t/ha 之间，呈现正态分布，平均产量约 5.8 t/ha 。

图 2：水稻冠层图像及粮食产量分布

A：7 个国家的粗粒产量分布；

B：不同国家平均粗粒产量饼状图；

C：粗粒产量最高的水稻图像；

D：粗粒产量最低的水稻图像。

2. 产量预测：冠层照片 + CNN → 粮食产量

CNN 模型、丢失函数和优化器使用 Python 语言和 PyTorch 框架进行部署。随后，研究人员通过组合不同的 Batch Size 和 Learning Rate，计算模型训练完成时的验证损失和相对均方根误差 (rRMSE)，得到了模型的最佳 Batch Size (32) 和 Learning Rate (0.0001) 。

CNN 模型在 Main Stream (MS) 中有 5 个卷积层，Branching Stream (BS) 中有 4 个卷积层。模型的池化层包括平均池化层 (AveragePooling) 和最大池化层 (MaxPooling) 。激活函数主要为整流线性单元 (ReLU)，在某些部分使用指数线性单元 (ELU) 。最后 MS 和 BS 汇合，通过 ReLU 层输出预估的粮食产量。

图 3：CNN 模型示意图

CNN 模型对图像有着较强的分辨能力。当地面采样间隔 (GSD，照片中每个像素点对应的现实距离，与分辨率相反) 为 0.2 cm/pixel 时，CNN 模型预测结果和实际结果的相关系数 R² 在 0.65 以上。即使 GSD 增大到 3.2 cm/pixel，模型的 R² 也能保持在 0.55 以上。

图 4：CNN 模型预测结果与 GSD 的关系

A：CNN 模型的 R2 与验证集、测试集照片 GSD 的关系；

B：CNN 模型预测产量与实际产量的散点图；

C & D：GSD 为 0.2 cm/pixel 和 3.2 cm/pixel 的示意照片。

进一步的，研究人员用预测集的数据对 CNN 模型进行了测试。 CNN 模型可以分辨出在东京的高成 (Takanari) 水稻和越光 (Koshihikari) 水稻产量的差异，且预测数据接近实际数据。

图 5：高成水稻和越光水稻的实际产量 (A) 和预测产量 (B)

随后，团队对图片进行了遮挡，以探究 CNN 模型分析图片并预测粮食产量的机制。他们用灰色块遮挡了照片的特定区域，并计算了遮挡前后 CNN 模型预测产量的差值。

图 6：遮挡实验示意图

A：遮挡前的照片；

B：遮挡后的照片；

C：照片不同区域对预测产量的权重。

结果显示，粮食产量与水稻花序的数量正相关，而与茎、叶、地面等元素在图片中的占比负相关。

于是，研究人员通过花序移除实验，验证了花序在产量预测中的作用。他们从每株水稻上摘下两个花序，拍照并统计粗粒产量，直到花序被全部摘下。

图 7：花序移除实验及结果

A：花序移除实验示意图；

B：花序移除后的照片；

C：预计产量和实际产量折线图；

D：花序移除过程中预计产量和实际产量之间的关系。

随着花序数量减少，CNN 模型的产量预测结果不断降低，最后降至 1.6 t/ha 。这一实验说明，CNN 模型主要是基于照片内花序的数量对粮食产量进行判断的。

3. 鲁棒性：拍照角度、时间及时期

验证了 CNN 模型对粮食产量的预测能力后，研究人员改变了拍摄角度、时间和时期，以探究 CNN 模型在不同条件下的鲁棒性。

照片的拍摄角度在 20°-90° 之间，测试间隔为 10°。结果显示，CNN 模型的预测精度随拍照角度的增大而提高。当拍摄误差为 20° 时，CNN 模型的预测结果为 -3.7-2.4 t/ha 。拍摄角度为 60° 时，预测误差在 -0.45-2.44 t/ha 之间，与 90° 时的预测结果接近。

图 8：拍摄角度测试及结果

A：拍摄角度实验示意图；

B：不同拍摄角度得到的照片；

C：不同拍摄角度照片预测产量与实际产量的差距。

随后，相机被放置在一个固定位置，每 30 分钟拍摄一张农田照片，以探究拍摄时间对 CNN 模型的影响。结果显示，虽然光照环境发生了变化，但 CNN 模型对全天照片的预测结果基本稳定。

图 9：拍摄时间测试及结果

A：拍摄时间实验示意图；

B：不同拍摄时间得到的照片；

C：CNN 模型对不同拍摄时间照片的预测产量。

最后，研究人员探究了拍摄时期对 CNN 模型预测结果的影响。在水稻 50% 抽穗之后，他们每周去农田收集照片，并用 CNN 模型进行分析。在水稻成熟初期，CNN 模型的预测产量低于收获期的实际产量，因为此时花序尚未完全成熟。

随着时间推移，CNN 模型的预测结果逐渐接近实际产量。 50% 抽穗后 4 周，CNN 模型的预测结果基本稳定，与实际产量接近。

图 10：拍摄时期测试及结果

A：不同拍摄时期得到的照片，DAH 代表抽穗后天数，DBH 代表收割前天数；

B：CNN 模型对不同时期拍摄照片的预测结果。

上述结果共同说明，CNN 模型可以对不同拍摄角度、时间和时期下得到的农田照片准确分析，得到稳定的产量预测结果。 CNN 模型具有鲁棒性。

智慧农业：AI 助力农业规划

据联合国预测，2050 年全球人口将达到约 91 亿。随着全球人口增长和收入提高，人们对于粮食的需求量也在不断增加。

同时，农业生产的集约化、数字化和智能化使粮食亩产量不断提高。 2000 年至 2019 年，全球农业用地面积降低了 3%，而主要作物的产量增加了 52%，水果蔬菜产量也增加了 20% 左右。

大型收割机、无人机等专业设备投入使用，使农户可以精准便捷地对自己的农田进行规划。大数据、物联网等技术帮助农户对农田状况实时感知，还能够对大棚内的环境进行自动调整。深度学习和大模型对天气的提前预测能够防范极端天气于未然，缓解传统农业「靠天吃饭」的难题。

图 11：智慧农业系统示意图

然而，截至 2021 年，全球受饥饿影响的人数较前一年增加约 4600 万人，达到 8.28 亿。农业生产不均衡、体系不健全的问题依然存在，甚至更加突出。

在 AI 的帮助下，我们可以对当地的农业发展做出更好的规划，推动世界农业生产均衡发展，为解决全球饥饿问题交出一份满意的答卷。

参考链接：

[1] https://www.fao.org/documents/card/en/c/cc2211en

[2] https://www.deccanherald.com/opinion/smart-farming-tech-new-age-700994.html