ドローン搭載によるRGB画像および赤外線画像を用いた深層学習によるモニタリング運用
本稿では、日本先端ロボティクス財団(Advanced Robotics Foundation)が定める特定の制限付き災害状況における災害救援ミッションに向けた監視・巡回作業を担うドローンの人工知能(AI)モジュールについて述べる。このAIモジュールは、環境認識および物体検出に深層学習モデルを活用している。環境認識には、RGB画像を基にしたセマンティックセグメンテーション(ピクセル単位のラベル付け)を採用している。物体検出は、救助を必要とする人の検出および位置特定に不可欠であり、ドローン視点から見ると人間は比較的小さな対象となるため、RGB画像と赤外線(熱画像)の両方を用いている。モデルの学習のために、本研究では人物を対象とした新規のマルチスペクトルかつ公開可能なデータセットを構築した。人物の地上位置特定には地理的座標(geo-location)手法を用いた。セマンティックセグメンテーションモデルについては、複数の特徴抽出器を用いて広範な評価を行った。また、本研究では2種類の専用データセットを構築し、公開した。ベースラインモデルと比較した結果、最良の性能を示したモデルは、平均交差率(mean Intersection over Union, IoU)を1.3%向上させた。さらに、2種類の人物検出モデルの性能を比較した。1つ目は、RGBと熱画像情報を「ラテフュージョン(後期融合)」により統合するアンサンブルモデルであり、2つ目は、これらの情報を「イアリーフュージョン(初期融合)」の形で統合する4チャネルモデルである。その結果、より厳格なIoU閾値(0.75)における平均精度(average precision)について、4チャネルモデルはアンサンブルモデルに対して40.6%の向上を達成し、熱画像モデルと比較しても5.8%の向上が確認された。すべてのモデルはNVIDIA AGX Xavierプラットフォームにデプロイされ、実機環境で評価された。本研究は、ドローン視点からRGBと熱画像を併用して監視タスクに取り組んだ初の試みであると認識している。