FBNetV5:1回の実行で複数のタスクに対するニューラルアーキテクチャサーチ

ニューラルアーキテクチャ探索(Neural Architecture Search, NAS)は、精度と効率の両立を実現する画像分類モデルの設計に広く採用されてきた。しかし、新たなコンピュータビジョンタスクにNASを適用するには依然として膨大な作業が求められる。その理由は以下の3点に帰着する。第一に、これまでのNAS研究は画像分類タスクに過度に注力しており、他のタスクはほとんど無視されてきた。第二に、多くのNAS手法はタスク固有のコンポーネントの最適化に焦点を当てており、他のタスクへの容易な転移が困難である。第三に、既存のNAS手法は一般的に「プロキシレス(proxyless)」設計を採用しており、各新規タスクの学習パイプラインに統合する際に多大な手間がかかる。こうした課題に対処するため、本研究では、多様な視覚タスクに適応可能なニューラルアーキテクチャを、大幅な計算コストおよび人的負荷の削減で探索できるNASフレームワーク「FBNetV5」を提案する。具体的には、以下の3つの要素を設計した。1)シンプルでありながら包括的かつ転移性に優れた探索空間;2)ターゲットタスクの学習パイプラインと分離されたマルチタスク探索プロセス;3)タスク数に依存しない計算コストで複数のタスクのアーキテクチャを同時に探索するアルゴリズム。提案手法の有効性を、画像分類、オブジェクト検出、セマンティックセグメンテーションという3つの基本的な視覚タスクを対象に評価した。FBNetV5による単一の探索実行で得られたモデルは、すべてのタスクにおいて従来の最先端(SOTA)を上回った。具体的には、画像分類(例:FBNetV3と同等のFLOPs下でImageNet Top-1精度が+1.3%向上)、セマンティックセグメンテーション(例:SegFormerと比較し3.6倍少ないFLOPsでADE20K検証mIoUが+1.8%向上)、オブジェクト検出(例:YOLOXと比較し1.2倍少ないFLOPsでCOCO検証mAPが+1.1%向上)において顕著な性能向上を達成した。