ScaleNAS:視覚認識のためのスケール感知表現のワンショット学習

肢体や物体の異なるサイズ間におけるスケールばらつきは、視覚認識タスクにおいて大きな課題である。従来の手法では、各タスクごとに専用のバックボーンを設計するか、神経ネットワークアーキテクチャ探索(Neural Architecture Search: NAS)を適用することでこの課題に対処してきた。しかし、これらの手法はアーキテクチャ設計や探索空間に大きな制約を課すという問題がある。本研究では、スケールに敏感な表現を探索するための一回学習(one-shot learning)手法であるScaleNASを提案する。ScaleNASは、マルチスケール特徴の集約を探索することで、複数のタスクを同時に解決する。また、任意の数のブロックとスケール間特徴融合を許容する柔軟な探索空間を採用している。柔軟な探索空間によって引き起こされる高い探索コストに対処するため、ScaleNASはグループサンプリングと進化的探索に基づくマルチスケールスーパーネットを用いた一回学習を実現している。再訓練を施さずに、ScaleNetは異なる視覚認識タスクに直接適用可能であり、優れた性能を発揮する。本研究ではScaleNASを活用し、2つの異なるタスクに適した高解像度モデル、すなわち人間のポーズ推定向けのScaleNet-Pとセマンティックセグメンテーション向けのScaleNet-Sを構築した。ScaleNet-PおよびScaleNet-Sは、いずれのタスクにおいても従来の手動設計モデルおよびNASベースの手法を上回る性能を達成した。特に、ScaleNet-Pをボトムアップ型人間ポーズ推定に適用した場合、最新のHigherHRNetを上回り、COCO test-devにおいて71.6%のAPを達成し、新たな最先端(SOTA)の記録を樹立した。