
要約
本研究では、深層学習を用いた植物病害検出モデルの学習に広く利用されているPlantVillageデータセットの使用について検討した。我々は、PlantVillage画像の背景部分から僅か8ピクセルのみを用いて機械学習モデルを訓練した。その結果、保留テストセットにおいて49.0%の精度を達成した。これはランダム推測の精度(2.6%)を大幅に上回る結果であり、PlantVillageデータセットにラベルと相関するノイズが含まれており、深層学習モデルがこのバイアスを容易に利用して予測を行う可能性を示している。本問題を軽減するための可能なアプローチについても議論する。