17日前

SpineNet：認識および局所化のためのスケール順序入れ替え可能なバックボーン学習

Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, Golnaz Ghiasi, Mingxing Tan, Yin Cui, Quoc V. Le, Xiaodan Song

要約

畳み込みニューラルネットワーク（CNN）は、通常、入力画像を解像度が段階的に低下する一連の中間特徴量に変換する構造を持つ。このような構造は分類タスクには適しているが、同時かつ正確な認識と局所化を要するタスク（例：物体検出）には十分な性能を発揮しない。この問題を解決するために、分類タスク向けに設計されたバックボーンモデルにデコーダネットワークを適用するエンコーダ・デコーダアーキテクチャが提案されている。本論文では、このアーキテクチャが、解像度が低下するバックボーンの制約により、強力なマルチスケール特徴量を効果的に生成できないと主張する。そこで、スケール順序が入れ替わった中間特徴量とスケール間の接続を持つバックボーンとして、ニューラルアーキテクチャサーチ（NAS）により物体検出タスク上で学習されたSpineNetを提案する。類似の構成ブロックを用いることで、SpineNetモデルは、ResNet-FPNモデルと比較して、さまざまなスケールにおいて約3%高いAP（平均精度）を達成しつつ、FLOPs（演算量）を10～20%削減する。特に、SpineNet-190は、テスト時増強なしでMask R-CNN検出器において52.5%のAP、RetinaNet検出器において52.1%のAPを達成し、単一モデルとして既存の最先端技術を顕著に上回る性能を示した。また、SpineNetは分類タスクへの転移学習にも適しており、困難な細分化データセットiNaturalistにおいてトップ1精度を5%向上させる。コードは以下のURLで公開されている：https://github.com/tensorflow/tpu/tree/master/models/official/detection