L2B: 레이블 노이즈 극복을 위한 강건한 모델 학습 부트스트래핑

딥 신경망은 표현 학습 분야에서 큰 성공을 거두었으나, 노이즈 있는 레이블(Noisy Labels, LNL)을 사용한 학습 시 쉽게 과적합되며, 새로운 데이터에 대한 일반화 능력이 저하되는 문제가 존재한다. 본 논문에서는 모델이 자신의 예측을 활용하여 자가 부트스트래핑(self-bootstrapping)을 수행할 수 있도록 하는 간단하면서도 효과적인 방법인 ‘부트스트래핑 학습(Learning to Bootstrap, L2B)’을 제안한다. 이 방법은 오류가 포함된 가상 레이블(pseudo-labels)의 부정적 영향을 받지 않으면서도, 실제 관측된 레이블과 생성된 레이블 간의 중요도 가중치, 그리고 서로 다른 샘플 간의 가중치를 메타학습을 통해 동적으로 조정함으로써 가능하게 한다. 기존의 샘플 재가중 기법과 달리, 본 방법의 핵심은 새로운 유연하고 다목적적인 목적함수를 도입하여 암묵적인 레이블 재지정(implicit relabeling)을 동시에 가능하게 한다는 점이며, 추가적인 비용 없이도 상당한 성능 향상을 달성할 수 있다.L2B는 기존 기준 모델 대비 여러 가지 장점을 제공한다. 특히, 부트스트래핑 절차를 보다 효과적으로 안내함으로써 노이즈 레이블의 영향에 덜 민감한 더 강건한 모델을 생성한다. 또한, 손상된 샘플 내에 포함된 유용한 정보를 보다 효과적으로 활용하기 위해 샘플과 레이블의 가중치를 적응적으로 조정한다. 더불어 L2B는 기존의 LNL 기법들과 호환되며, 합성적 및 실제 세계의 노이즈 환경에서 이미지 분류 및 세분화를 포함한 자연 이미지 및 의료 영상 작업 전반에 걸쳐 경쟁력 있는 성능을 보여준다. 광범위한 실험을 통해 제안한 방법이 노이즈 레이블 문제를 효과적으로 완화함을 입증하였으며, 검증 샘플이 거의 필요 없거나 전혀 필요하지 않은 경우도 많다. 이는 이미지 세분화와 같은 다른 작업으로도 잘 일반화됨을 의미하며, 기존 LNL 기법들에 대한 강력한 보완책으로서의 위치를 확보함과 동시에 실용적인 적용 가능성을 입증한다. 코드와 모델은 https://github.com/yuyinzhou/l2b 에서 공개되어 있다.