2ヶ月前

限られたリソースを用いたランドマーク位置特定のための階層的バイナリCNN

Adrian Bulat; Georgios Tzimiropoulos
限られたリソースを用いたランドマーク位置特定のための階層的バイナリCNN
要約

私たちの目標は、ランドマーク定位に於ける畳み込みニューラルネットワーク(CNNs)の画期的な性能を維持しつつ、軽量でコンパクトであり、計算リソースが制限されたアプリケーションにも適したアーキテクチャを設計することです。この目的のために、以下の貢献を行いました:(a) ニューラルネットワークのバイナリ化が定位タスク、特に人間の姿勢推定と顔合わせに及ぼす影響について初めて研究しました。様々な設計選択肢を網羅的に評価し、性能ボトルネックを特定し、さらに重要なことに複数の独立した方法を提案して性能向上を図りました。(b) 当社の分析に基づき、標準的なボトルネックブロックと同等のパラメータ数を持つ一方で大幅な性能向上をもたらす新しい階層的・並列的・多尺度残差アーキテクチャを提案しました。これにより、元のネットワークとバイナリ化された対応物との間のギャップが埋められました。(c) 提案されたブロックの特性と性能について明確にするために多数の削減研究を行いました。(d) 人間の姿勢推定と顔合わせにおける最も困難なデータセットでの実験結果を提示し、多くの場合において最先端の性能を報告しています。(e) 顔部セグメンテーション問題に関する追加結果も提供しています。コードは https://www.adrianbulat.com/binary-cnn-landmark からダウンロードできます。