Forest R-CNN: 大語彙長尾物体検出とインスタンスセグメンテーション

物体分析の過去の成功にもかかわらず、長尾分布を持つ多数の物体カテゴリーを検出およびセグメンテーションすることは依然として難問であり、研究が十分に行われていない。大語彙分類器では、ノイジーなロジットを得る確率が高くなるため、誤認識につながりやすい。本論文では、物体カテゴリー間の関係性に関する事前知識を利用して、細かいクラスをより粗い親クラスにクラスタリングし、親クラスを通じて物体インスタンスを細かいカテゴリーに解析する分類ツリーを構築する方法を提案する。この分類ツリーにおいては、親クラスノードの数が大幅に少ないため、そのロジットは比較的ノイズが少なく、細かいクラスノードで存在する誤った/ノイジーなロジットを抑制するために利用できる。親クラスの構築方法は一意ではないため、さらに複数のツリーを構築して分類フォレストを作成し、各ツリーが細かい分類に投票を行うようにした。長尾現象によって引き起こされる学習の不均衡を緩和するために、単純ながら効果的な再サンプリング手法であるNMSリサンプリング(Non-Maximum Suppression Resampling)を提案する。当手法はForest R-CNNと呼ばれ、1000以上のカテゴリーを認識可能な大多数の物体認識モデルにプラグアンドプレイモジュールとして適用可能である。大語彙データセットLVIS上で広範な実験を行った結果、Mask R-CNNベースラインと比較して稀少カテゴリーでは11.5%、全体的なカテゴリーでは3.9%のAP(Average Precision)向上が確認された。さらに当手法はLVISデータセットにおいて最先端の結果を達成している。コードはhttps://github.com/JialianW/Forest_RCNNで公開されている。