Command Palette
Search for a command to run...
{A. U. Rehman Riccardo La Grassa M. Boschetti C. Loschiavo Nicola Landro Mattia Gatti Ignazio Gallo}
要約
最近の研究では、畳み込みニューラルネットワーク(CNN)が衛星画像時系列(SITS)における作物セグメンテーションにおいて優れた成果を上げていることが示されている。しかし、様々な視覚タスクにおいて変換器(Transformer)ネットワークが登場したことを受けて、SITSにおける作物セグメンテーションにおいて、TransformerがCNNを上回る可能性があるかという疑問が浮上している。本論文では、SITSにおける作物セグメンテーションに特化して改訂された、TransformerベースのSwin UNETRモデルを提案する。提案モデルは顕著な進展を示し、ミュンヘンデータセットにおいて検証精度96.14%、テスト精度95.26%を達成した。これは従来の最高性能(検証:93.55%、テスト:92.94%)を上回るものである。さらに、ロンバルディアデータセットにおいても、UNet3Dと同等の性能を発揮し、FPNやDeepLabV3を上回った。本研究の実験結果から、このモデルはCNNと同等あるいはそれ以上の精度を達成しつつ、著しく少ない学習時間で実現可能であることが示された。これらの結果は、TransformerベースのアーキテクチャがSITSにおける作物セグメンテーションにおいて大きな可能性を秘めていることを示しており、リモートセンシング応用の新たな道を開くものである。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| semantic-segmentation-on-lombardia-sentinel-2 | UNet3D | Overall Accuracy: 80.77 |
| semantic-segmentation-on-lombardia-sentinel-2 | DeepLabv3 3D | Overall Accuracy: 74.51 |
| semantic-segmentation-on-lombardia-sentinel-2 | Swin UNETR | Overall Accuracy: 79.64 |
| semantic-segmentation-on-lombardia-sentinel-2 | 3D FPN with NDVI Loss | Overall Accuracy: 77.23 |
| unet-segmentation-on-munich-sentinel2-crop-1 | UNet3D | Overall Accuracy: 94.73 |
| unet-segmentation-on-munich-sentinel2-crop-1 | Swin UNETR | Overall Accuracy: 95.26 |
| unet-segmentation-on-munich-sentinel2-crop-1 | DeepLabv3 3D | Overall Accuracy: 85.98 |