PP-PicoDet:モバイルデバイス上のより優れたリアルタイムオブジェクト検出器

オブジェクト検出における精度と効率のトレードオフは、長年にわたり困難な課題であった。本研究では、オブジェクト検出の精度と効率を向上させるため、重要な最適化手法およびニューラルネットワークアーキテクチャの選定に注力する。特に、軽量型オブジェクト検出モデルにおけるアンカー不要(anchor-free)戦略の適用可能性を検討した。バックボーン構造を強化し、ネック部分に軽量構造を設計することで、ネットワークの特徴抽出能力を向上させた。また、ラベル割り当て戦略および損失関数を改善し、学習の安定性と効率性を高めた。これらの最適化を統合することで、モバイルデバイス向けオブジェクト検出において優れた性能を発揮するリアルタイム検出器の新シリーズ「PP-PicoDet」を構築した。他の代表的なモデルと比較して、精度と待機時間(latency)のバランスにおいて優れた性能を達成している。PicoDet-Sはパラメータ数わずか0.99Mで30.6%のmAPを達成し、YOLOX-Nanoと比較してmAPは絶対値で4.8%向上、モバイルCPU上の推論遅延は55%削減した。また、NanoDetと比較してもmAPは7.1%向上している。入力サイズが320の場合、モバイルARM CPU上で123FPS(Paddle Liteを活用すると150FPS)を実現している。PicoDet-Lはパラメータ数3.3Mで40.9%のmAPを達成し、YOLOv5sと比較してmAPは絶対値3.7%向上、処理速度は44%高速化している。図1に示すように、本研究で提案するモデルは、軽量型オブジェクト検出の最先端技術を大きく上回っている。コードおよび事前学習済みモデルは、https://github.com/PaddlePaddle/PaddleDetection にて公開されている。