
SCoralNet(Faster R-CNNを基盤とする)は、水中のサンゴの種類を自動的に局所化し識別するための新規な水中サンゴ検出フレームワークであり、画像内の詳細なアノテーションを迅速かつ高精度で行うことを可能にしている。水中サンゴの被覆率および個体数のモニタリングには、多数の水中サンゴ画像のアノテーションと処理が通常必要となる。しかし、大量の画像を手作業でアノテーションするには時間がかかり、人的負荷も非常に大きい。また、従来のCNN分類器は単純な分類ラベルを出力するのみで、画像の細部情報を十分に捉えることができない。SCoralNetでは、バックボーンネットワークに拡張畳み込み(dilated convolutions)を組み込むことで、検出性能を向上させている。サンゴ対象のマルチスケールかつマルチレベルの情報を効果的に捉えるため、バックボーンと検出ヘッドの間に、NASFPNと呼ばれるネックネットワークを配置している。また、データセットの長尾分布(long-tailed distribution)が分類器の精度に与える影響を低減するために、Seesaw Lossを採用している。ボックス回帰の最適化にはCIoU Lossを用いている。推論時には、重複するサンゴ検出ボックスを抑制するためにSoft-NMSが適用されている。SCoralNetの有効性を評価するため、中国・三亜地域の代表的な軟体サンゴ種の実写画像を用いて、Coral-softと呼ばれる新しいデータセットを構築した。Coral-softデータセットにおける実験結果では、SCoralNetは元のFaster R-CNNモデルを上回り、平均精度(mAP)で45.68%の向上、mAP75では59.2%の増加を達成した。さらに、全体的な性能面でも、いくつかの先進的なモデルを上回る結果を示した。