2ヶ月前
リソースが限られている場合のヒューマンポーズ推定と顔アライメント用バイナリ化畳み込みランドマークロケータ
Adrian Bulat; Georgios Tzimiropoulos

要約
私たちの目標は、ランドマーク局所化においてCNN(畳み込みニューラルネットワーク)の画期的な性能を維持しつつ、軽量でコンパクトな構造を設計し、計算リソースが制限されたアプリケーションに適応させることです。この目的のために、以下の貢献を行いました:(a) ニューラルネットワークのバイナリ化が局所化タスク、特に人間の姿勢推定と顔合わせに与える影響について初めて研究しました。様々な設計選択肢を網羅的に評価し、性能ボトルネックを特定するとともに、より重要なことに複数の正規直交的な方法を提案して性能向上を図りました。(b) 我々の分析に基づいて、従来のボトルネックブロックと同じパラメータ数を持つにもかかわらず大幅な性能向上をもたらす新しい階層的・並列的・多尺度残差アーキテクチャを提案しました。これにより、元のネットワークとバイナリ化された対応物との間のギャップが埋められました。(c) 提案したブロックの特性と性能について多くのアブレーションスタディを行いました。(d) 人間の姿勢推定と顔合わせにおける最も困難なデータセットでの実験結果を示し、多くの場合で最先端の性能を報告しています。コードは以下のURLからダウンロードできます:https://www.adrianbulat.com/binary-cnn-landmarks