라벨 모호성과 함께 한 이미지 분류를 위한 다중 레이블 반복 학습

대규모 사전 훈련 모델로부터의 전이 학습은 많은 컴퓨터 비전 작업에서 필수적인 요소가 되었다. 최근 연구들은 ImageNet과 같은 데이터셋이 이미지 내에 다수의 객체 클래스가 존재하는 경우에도 단일 레이블을 부여하기 때문에 약한 레이블링을 가지고 있음을 밝혀냈다. 이러한 모호성은 모델이 단일 예측에 치우치게 만들며, 데이터 내에서 자주 함께 나타나는 클래스의 표현이 억제되는 결과를 초래할 수 있다. 언어의 등장에 관한 문헌에서 영감을 얻어, 우리는 반복 학습(iterated learning) 프레임워크를 활용하여 단일 레이블에서 다중 레이블 학습의 유도 편향(inductive biases)을 통합하는 다중 레이블 반복 학습(Multi-label Iterated Learning, MILe)을 제안한다. MILe는 학습 버블링(bottleneck)을 갖는 교사-학생 네트워크의 연속적인 세대에 걸쳐 이진 예측을 전파함으로써 이미지에 대한 다중 레이블 기술을 구축하는 간단하면서도 효과적인 절차이다. 실험 결과, 본 연구 방법은 ImageNet 정확도와 ReaL F1 스코어 모두에서 체계적인 성능 향상을 보이며, 표준 훈련 절차에 비해 레이블 모호성에 더 잘 대응함을 입증한다. 이는 자기지도 학습(self-supervised) 가중치로부터의 미세 조정(fine-tuning) 상황에서도 동일하게 성립한다. 또한 MILe가 레이블 노이즈를 효과적으로 감소시킴으로써 WebVision과 같은 실제 대규모 노이즈 데이터셋에서 최신 기준 성능을 달성함을 보였다. 더불어, IIRC와 같은 클래스 증분 설정(class incremental setting)에서도 성능 향상을 가져오며, 분포 변화(distribution shift)에 대해 뛰어난 내구성을 보였다. 코드: https://github.com/rajeswar18/MILe