
要約
最近の手法では、単一のベースネットワーク内に複数のサブネットワークを同時に学習させることで、「無料」でアンサンブルを実現するアプローチが達成されている。訓練中の主なアイデアは、各サブネットワークが同時に提供される複数の入力のうち、一つの入力のみを分類するように学習することにある。しかし、これらの複数の入力をどのように最適に組み合わせるかという問題については、これまで十分に検討されていなかった。本論文では、マルチインプット・マルチアウトプットの深層サブネットワークを学習するための新たな一般化枠組み「MixMo」を提案する。我々の主な動機は、従来の手法に潜む不適切な和集合(summing)操作を、より適切な混合メカニズムで置き換えることにある。そのために、成功を収めた混合サンプルのデータ拡張法に着想を得た。我々は、特徴量空間における二値混合(binary mixing)——特にCutMixから得られる長方形パッチを用いた混合——が、サブネットワークの強度と多様性を高め、性能向上に寄与することを示した。CIFAR-100およびTiny ImageNetデータセットにおける画像分類タスクにおいて、既存の最先端性能を上回ることを確認した。本手法は実装が容易であり、推論時間およびメモリオーバーヘッドを伴わず、データ拡張を施した深層アンサンブルよりも顕著に優れた結果を達成している。特徴量空間で操作を行い、大規模ネットワークの表現力をより効果的に活用する本アプローチは、従来の研究とは補完的な新たな研究方向性を提示している。