
コンピュータビジョンタスクにおける深層ニューラルネットワークアーキテクチャの広範な普及に伴い、近年、さまざまな新規応用が実現可能になってきている。その中でも特に注目されているのは、R-CNNを基盤とする2段階ネットワーク(例:Mask R-CNNやFaster R-CNN)の成果を活用したインスタンスセグメンテーションである。このような複雑なアーキテクチャにおいて、バックボーンに接続された特徴ピラミッドネットワーク(FPN)層から一貫した特徴のサブセットを抽出する「領域の注目(Region of Interest: RoI)抽出層」が重要な役割を果たしている。本研究は、既存のRoI抽出器がFPNから一つ(最適な)層のみを選択するという制限を克服する必要性に動機づけられている。我々の直感としては、FPNのすべての層に有用な情報が保持されていると考えられる。したがって、提案する新規層(一般化RoI抽出層:Generic RoI Extractor, GRoIE)は、非局所構造(non-local building blocks)と注目メカニズム(attention mechanisms)を導入することで、性能の向上を図っている。GRoIE層の最適なアルゴリズムおよびパラメータの組み合わせを特定するため、構成要素レベルでの包括的なアブレーションスタディを実施した。さらに、GRoIEはオブジェクト検出およびインスタンスセグメンテーションの両タスクにおいて、あらゆる2段階アーキテクチャとスムーズに統合可能である。そのため、最先端アーキテクチャにおけるGRoIEの導入による性能向上も評価された。その結果、境界ボックス検出では最大1.1%、インスタンスセグメンテーションでは最大1.7%のAP(Average Precision)向上が達成された。本研究で提案するGRoIE層のコードは、GitHubリポジトリにて公開されている。https://github.com/IMPLabUniPr/mmdetection/tree/groie_dev