17일 전

MixMo: 깊은 하위망을 통한 다중 입력의 혼합을 통한 다중 출력

Alexandre Rame, Remy Sun, Matthieu Cord
MixMo: 깊은 하위망을 통한 다중 입력의 혼합을 통한 다중 출력
초록

최근의 전략들은 단일 기반 네트워크 내부에 다양한 하위 네트워크를 동시에 학습함으로써 '무료로' 앙상블을 달성하는 방식을 제안하였다. 학습 과정에서의 주요 아이디어는 각 하위 네트워크가 동시에 제공되는 다수의 입력 중 하나만을 분류하도록 학습하도록 하는 것이다. 그러나 이러한 다수의 입력을 어떻게 최적으로 혼합할 것인지에 대한 질문은 지금까지 연구되지 않았다. 본 논문에서는 다중 입력-다중 출력 딥 하위 네트워크를 학습하기 위한 새로운 일반화된 프레임워크인 MixMo를 제안한다. 우리의 주요 동기는 이전 접근법에서 은닉되어 있던 비최적의 합산 연산을 더 적절한 혼합 메커니즘으로 대체하는 것이다. 이를 위해 성공적인 샘플 혼합 데이터 증강 기법들에서 영감을 얻었다. 우리는 특징 공간에서의 이진 혼합, 특히 CutMix에서 사용하는 사각형 패치를 활용한 혼합이 하위 네트워크의 강도와 다양성을 높여 성능 향상에 기여함을 보여준다. CIFAR-100 및 Tiny ImageNet 데이터셋에서 이미지 분류 작업에서 최신 기술을 개선하였다. 본 연구에서 제안하는 모델은 구현이 간단하며, 데이터 증강을 적용한 딥 앙상블보다 뛰어난 성능을 보이되, 추론 및 메모리 오버헤드 없이 수행된다. 특징 공간에서 작동함으로써 대규모 네트워크의 표현력을 더 효과적으로 활용하게 되었으며, 이는 기존 연구들과 보완적인 새로운 연구 방향을 제시한다.

MixMo: 깊은 하위망을 통한 다중 입력의 혼합을 통한 다중 출력 | 최신 연구 논문 | HyperAI초신경