8ヶ月前

概要

「分類と局所化のための共有ヘッド」（シブリングヘッド）は、Fast R-CNN~\cite{girshick2015fast} で初めて提唱されて以来、過去5年間にわたりオブジェクト検出分野における主流のアーキテクチャを牽引してきました。本論文では、シブリングヘッドにおける分類と局所化の二つのオブジェクト関数間に生じる空間的不整合が、学習プロセスに著しく悪影響を及ぼすことを観察しました。しかし、この不整合は「タスク認識型空間的分離（Task-aware Spatial Disentanglement; TSD）」と呼ばれる非常にシンプルな演算子によって解決可能であることを示しました。TSDは、分類と回帰の両タスクに対して、共有された提案（proposal）に基づいて空間的に分離された二つの提案を生成することで、これらのタスクを空間次元から分離します。この設計のインスピレーションは、あるオブジェクトに対して、特徴量が明確な領域（例：中心部）では分類に適した豊富な情報を持つ一方で、境界付近の特徴はバウンディングボックス回帰に適しているという自然な洞察に基づいています。驚くべきことに、このシンプルな設計は、MS COCOおよびGoogle OpenImagesの両データセットにおいて、あらゆるバックボーンおよびモデルに対して一貫して約3%のmAP向上をもたらします。さらに、分離された提案と共有提案の性能差を拡大するための段階的制約（progressive constraint）を提案し、これによりさらに約1%のmAP向上を達成しました。本研究で提示する \algname{} は、現在の単一モデル検出器の性能上限を大きく上回る結果を示しており（ResNet-101を用いた場合mAP 49.4、SENet154を用いた場合mAP 51.2）、Google OpenImages Challenge 2019における当研究チームの1位解答の核心的なモデルとして採用されています。

ソースPDF