17日前
HyT-NAS:エッジデバイス向けハイブリッドトランスフォーマー型ニューラルアーキテクチャサーチ
Lotfi Abdelkrim Mecharbat, Hadjer Benmeziane, Hamza Ouarnoughi, Smail Niar

要約
ビジョン・トランスフォーマー(Vision Transformers)は、近年の注目ベースの深層学習(DL)アーキテクチャが、コンピュータビジョン(CV)タスクにおいて顕著な成果を達成する上で重要な役割を果たしている。しかし、膨大な計算リソースを必要とするため、こうしたアーキテクチャはリソース制約の厳しいプラットフォームへの実装はほとんど行われていない。現在の研究では、画像分類やオブジェクト検出といったCVタスクにおいて、手動設計された畳み込みベースと注目機構ベースのハイブリッドモデルの検討が進められている。本論文では、微小デバイス上でビジョンタスクを対象とする効率的なハードウェア意識型ニューラルアーキテクチャ探索(HW-NAS)であるHyT-NASを提案する。HyT-NASは、探索空間の拡張、探索戦略の強化、および性能予測モデルの改善を通じて、最先端のHW-NASを進化させている。実験の結果、HyT-NASはわずか5倍未満のトレーニング評価回数で、従来のハイパーボリュームと同等の性能を達成した。得られたアーキテクチャは、Visual Wake Wordsタスクにおいて、MLPerf MobileNetV1と比較して6.3%の精度向上を達成しつつ、パラメータ数を3.5倍削減した。