
物体検出とセマンティックセグメンテーションの同時実行は、自動運転車や無人水上船などの多くの分野に応用できます。この目標に向けて、両タスクで深層畳み込み特徴を共有するという単純な手法により初期かつ重要な進展が達成されました。しかし、この単純なスキームでは、検出とセグメンテーションが互いに有益であるという事実を十分に活用することはできません。この欠点を克服するために、我々は TripleNet と呼ばれるフレームワークを提案します。TripleNet では、検出指向の監督、クラス認識セグメンテーションの監督、およびクラス非認識セグメンテーションの監督(以下、三重監督)がデコーダーネットワークの各層に課されます。クラス非認識セグメンテーションの監督は、セマンティックセグメンテーションと物体検出の両方にオブジェクト性の先験知識を提供します。さらに、三つの種類の監督に加えて、各デコーダー層には内接モジュールとアテンションスキップレイヤーフュージョンという二つの軽量モジュールも組み込まれています。提案されたフレームワークでは、検出とセグメンテーションが十分に相互補完し合います。また、各デコーダー層でのクラス非認識およびクラス認識セグメンテーションはテスト段階では行われないため、テスト段階での追加計算コストは発生しません。VOC2007 および VOC2012 データセットにおける実験結果から、提案された TripleNet は追加計算コストなしで検出精度とセグメンテーション精度を向上させることができる事が示されています。注:「内接モジュール」(inner-connected module)、「アテンションスキップレイヤーフュージョン」(attention skip-layer fusion)は一般的な日本語訳がないため括弧内に原文を記載しました。