
既存の注目物体検出モデルの多くは、畳み込みニューラルネットワークから抽出された多段階特徴を集約することにより大きな進歩を遂げています。しかし、異なる畳み込み層の受容野が異なるため、これらの層によって生成される特徴間に大きな違いが存在します。一般的な特徴融合戦略(加算や連結)はこれらの違いを無視し、最適でない解を引き起こす可能性があります。本論文では、上記の問題を解決するためにF3Netを提案します。F3Netは主にクロス特徴モジュール(Cross Feature Module: CFM)と逐次フィードバックデコーダ(Cascaded Feedback Decoder: CFD)で構成され、新しいピクセル位置認識損失(Pixel Position Aware Loss: PPA)の最小化により学習されます。特に、CFMは選択的に多段階特徴を集約することを目指しています。加算や連結とは異なり、CFMは融合前に入力特徴から補完的な成分を選択的に抽出することで、過度な冗長情報の導入による元々の特徴の破壊を効果的に回避できます。また、CFDは複数段階のフィードバックメカニズムを採用しており、監督に近い特徴が前の層の出力に導入されて補完され、特徴間の違いが排除されます。これらの洗練された特徴は最終的な注目マップを生成する前に複数回類似の反復処理を通じます。さらに、二値交差エントロピーとは異なり、提案されたPPA損失はピクセルを平等に扱いません。これはピクセルの局所構造情報を合成してネットワークが局所詳細により集中するようにガイドします。境界や誤りやすい部分からの困難なピクセルにはより多くの注意が払われて重要性が強調されます。F3Netは注目物体領域を正確にセグメンテーションし、明瞭な局所詳細を提供することができます。5つのベンチマークデータセットにおける包括的な実験結果から、F3Netが6つの評価指標において最先端アプローチを超えることが示されています。