7日前

SeqNet:トランスファーラーニングを用いたワンショット交通標識認識のための逐次ネットワーク

{Mohamad Farzan Sabahi, Farzad Parvaresh, Nariman Abdi}
要約

交通標識認識タスクにおいて、合成参照画像を観察して標識を認識することは、ワンショット学習アルゴリズムによって実現可能な、人間のような能力である。ワンショットオブジェクト認識は、深層モデルがサポート画像に基づいてクエリ例を分類するという、深層ニューラルネットワークにとって困難な課題である。特に、サポートサンプルとクエリサンプルの間にドメインシフトが生じる場合、この課題はさらに難しくなる。未知のドメイン(分布が異なる)における深層モデルの一般化能力は、ワンショット認識において別の大きな課題である。本研究では、上記の問題を克服するため、新しい深層ネットワーク「SeqNet」を提案する。現時点で知られている限り、本研究はワンショット交通標識認識およびワンショットロゴ識別において、すべての最先端モデルを上回る優れた性能を達成している。提案するSeqNetモデルは、テストデータ上で追加のモデル微調整をせずに、未観測のドメインへ一般化可能である。また、関係のないが大規模なドメインから転移学習された知識を活用することで、ネットワークパラメータ数を削減し、モデルサイズの縮小を実現できることを示している。大規模な深層モデルから得られる転移知識の力を活用することで、SeqNetはより小型化され、競合モデルと比較して約6倍少ないパラメータ数を実現している。この小型化されたSeqNetアーキテクチャは、スマートビークルをはじめとするリソース制約のあるデバイスでの多様な応用に適している。実験結果から、提案するSeqNetの性能は大幅に向上しており、ワンショット分類では最大20%の精度向上、画像検索タスクでは最大30%のAUC(Area Under the Curve)向上が確認された。

SeqNet:トランスファーラーニングを用いたワンショット交通標識認識のための逐次ネットワーク | 最新論文 | HyperAI超神経