
要約
アンサンブル手法は、従来、独立して訓練され相関の低いモデルを組み合わせることで構築されており、残存する一般化誤差を効果的に低減する手法として、実世界の応用において堅牢かつ高精度な性能を発揮することが実証されている。しかし、ディープラーニングの文脈においては、ディープネットワークのアンサンブルを訓練することは高コストであり、冗長性が大きくなり、効率が悪くなる。本論文では、畳み込みネットワークを基盤とした共有表現を有するアンサンブル(Ensembles with Shared Representations: ESRs)について実験を行い、顔の表情データセットにおけるデータ処理の効率性および大規模データセットへのスケーラビリティを定量的・定性的に示す。本研究では、ESRの分岐レベルを調整することにより、多様性および一般化能力を損なわずに冗長性と計算負荷を著しく低減できることを示した。これらはアンサンブル性能において重要な要素である。大規模データセットを用いた実験結果から、ESRはAffectNetおよびFER+データセットにおいて残存する一般化誤差を低減し、人間レベルの性能を達成し、感情および感情状態(affect)の概念を用いた野外における顔の表情認識において、従来の最先端手法を上回ることを示した。