2달 전

비지도 선택적 라벨링을 통한 더 효과적인 준지도 학습

Xudong Wang; Long Lian; Stella X. Yu
비지도 선택적 라벨링을 통한 더 효과적인 준지도 학습
초록

라벨이 부착되지 않은 데이터셋과 주석 예산이 주어졌을 때, 우리는 이러한 부분적으로 라벨이 부착된 데이터셋에서 반지도 학습(Semi-Supervised Learning, SSL)이 가장 효과적이도록 고정된 수의 인스턴스를 선택적으로 라벨링하는 방법을 연구합니다. 우리는 일반적인 SSL의 라벨이 부착된 데이터에서 나머지 라벨이 부착되지 않은 데이터로 라벨을 전파하는 것 외에도 올바른 데이터를 선택하는 것에 중점을 두고 있습니다. 이 인스턴스 선택 작업은 어떠한 라벨이 부착된 데이터도 없기 때문에 학습의 목표가 무엇인지 알 수 없어 도전적입니다. 직관적으로, 하류 작업이 무엇이든 간에 라벨링해야 하는 인스턴스는 대표적이고 다양해야 합니다: 전자는 라벨이 부착되지 않은 데이터로의 라벨 전파를 용이하게 하며, 후자는 전체 데이터셋의 포괄성을 보장합니다. 우리는 이 아이디어를 사전 훈련된 특성 공간에서 또는 특성 최적화와 함께 라벨 없이 클러스터 프로토타입을 선택함으로써 포착합니다. 우리의 비지도 선택적 라벨링은 주어진 라벨링된 데이터에 대한 최신 활성 학습(state-of-the-art active learning)보다 SSL 방법들을 일관되게 개선하며, 8배에서 25배까지 라벨 효율성이 향상됩니다. 예를 들어, CIFAR-10(0.08%의 라벨링된 데이터)에서는 정확도가 10% 향상되고 ImageNet-1K(0.2%의 라벨링된 데이터)에서는 14% 향상되는 것으로 나타났습니다. 이는 특히 낮은 주석 예산 하에서 작은 계산량을 들여 어떤 데이터를 선택할지 결정하는 것이 상당한 이득을 가져온다는 것을 보여줍니다. 우리의 연구는 실용적이고 효율적인 SSL에 대한 새로운 기준을 제시합니다.

비지도 선택적 라벨링을 통한 더 효과적인 준지도 학습 | 최신 연구 논문 | HyperAI초신경