
초록
최근 들어 컴퓨터 비전 분야에서는 복잡도가 상당히 증가하는 것에 비해 성능 향상은 미미한 수준에 그치는 경향이 지속되고 있다. 이러한 경향을 반전하기 위해, 복잡도 증가 없이 이미지 분류 성능을 향상시킬 수 있는 새로운 방법을 제안한다. 이를 위해 우리는 효율적인 앙상블(ensembling) 기법을 재검토하였으며, 이는 복잡한 구조와 긴 학습 시간으로 인해 종종 적절히 활용되지 못하는 강력한 접근법이다. 본 연구에서는 특정 설계 선택을 통해 이 기법을 실용 가능하게 만들었다. 먼저, 이미지 분류 작업에서 정확도 대 복잡도의 균형이 가장 우수한 것으로 알려진 EfficientNet-b0 아키텍처를 사용하여, 데이터의 서로 다른 부분집합(즉, 배깅, bagging)에 대해 두 개의 엔드투엔드 모델을 별도로 학습시켰다. 그 후, 학습 가능한 조합 레이어를 활용한 미세 조정(fine-tuning)을 통해 효율적인 적응형 앙상블을 구성하였다. 이를 통해 여러 주요 벤치마크 데이터셋에서 상태의 최고 수준(SOTA)을 평균적으로 0.5% 이상의 정확도 향상으로 초과 달성하였으며, 파라미터 수는 5~60배, FLoating point Operations Per Second(FLOPS)는 10~100배에 달하는 복잡도 저감을 동시에 달성하였다.