11日前

CASSOD-Net:埋め込み視覚システムおよび応用における拡張畳み込みの級連的かつ分離可能な構造

Tse-Wei Chen, Deyu Wang, Wei Tao, Dongchao Wen, Lingxiao Yin, Tadayuki Ito, Kinya Osa, Masami Kato
CASSOD-Net:埋め込み視覚システムおよび応用における拡張畳み込みの級連的かつ分離可能な構造
要約

畳み込みニューラルネットワーク(CNN)の視野(Field of View: FOV)は、推論精度と密接に関連している。拡張畳み込み(Dilated Convolutions)は、広い視野を必要とする問題に対して効果的な解決策として知られている。しかし、汎用ハードウェアまたは専用ハードウェアにおいて、標準的な畳み込みと比較して、拡張畳み込みの処理には通常、追加の時間がかかる。本論文では、CASSOD(Cascaded and Separable Structure of Dilated)畳み込みと呼ばれる新たなネットワークモジュールおよび、CASSODネットワークを効率的に処理する専用ハードウェアシステムを提案する。CASSOD-Netは、複数の級連された $2 \times 2$ 拡張フィルタを用いて構成されており、従来の $3 \times 3$ 拡張フィルタと同等の推論精度を維持しつつ、それらを置き換えることが可能である。顔検出および画像セグメンテーションという2つの応用例において、拡張畳み込みと本提案のCASSODモジュールを比較評価した。顔検出用の新規ネットワークは、コンテキストモジュールにおける拡張畳み込み層のフィルタ重み数を従来手法の47%に抑えたにもかかわらず、より高い精度を達成した。さらに、提案するハードウェアシステムは拡張畳み込みの計算を高速化でき、フィルタサイズが $3 \times 3$ の場合、従来のハードウェアシステムに比べて2.78倍の速度向上を実現した。