
초록
웹 데이터에서 학습하는 것은 최근 몇 년 동안 많은 연구 관심을 받고 있습니다. 그러나 크롤링된 웹 이미지는 라벨 노이즈와 배경 노이즈라는 두 가지 유형의 노이즈를 가지고 있어, 이를 효과적으로 활용하는 데 추가적인 어려움을 초래합니다. 기존의 대부분 방법은 사람의 감독에 의존하거나 배경 노이즈를 무시합니다. 본 논문에서는 훈련 단계에서 깨끗한 이미지의 감독 없이 이 두 가지 유형의 노이즈를 동시에 처리할 수 있는 새로운 방법을 제안합니다. 특히, 우리의 방법은 같은 카테고리의 ROI(즉, 이미지와 그 영역 제안)들을 가방으로 그룹화하여 다중 인스턴스 학습 프레임워크 하에서 공식화됩니다. 각 가방 내의 ROI들은 가장 가까운 클러스터들의 대표성/구분성 점수에 따라 다른 가중치가 할당되며, 이 클러스터들과 점수는 우리가 설계한 메모리 모듈을 통해 얻어집니다. 우리의 메모리 모듈은 분류 모듈과 자연스럽게 통합될 수 있으며, 이로 인해 엔드투엔드로 학습 가능한 시스템을 구축할 수 있습니다. 네 개의 벤치마크 데이터셋에 대한 광범위한 실험 결과가 우리 방법의 유효성을 입증하고 있습니다.