15일 전

PT4AL: 주동 학습을 위한 자기지도 사전 과제 활용

John Seon Keun Yi, Minseok Seo, Jongchan Park, Dong-Geol Choi
PT4AL: 주동 학습을 위한 자기지도 사전 과제 활용
초록

대규모 데이터 세트에 레이블을 붙이는 것은 비용이 매우 높다. 능동 학습(active learning)은 레이블이 지정되지 않은 데이터 중 가장 정보량이 큰 데이터만을 선택하여 레이블링함으로써 이 문제를 해결하고자 한다. 본 연구에서는 자기지도 학습(pretext task)과 독특한 데이터 샘플러를 활용하여, 어려우면서도 대표적인 데이터를 선택하는 새로운 능동 학습 접근법을 제안한다. 우리는 단순한 자기지도 학습 사전 작업(예: 회전 예측)의 손실이 다운스트림 작업의 손실과 밀접한 상관관계를 가짐을 발견하였다. 능동 학습 반복 전에 사전 작업 학습자는 레이블이 지정되지 않은 데이터 세트에서 학습되며, 이 데이터들은 사전 작업의 손실 기준으로 정렬된 후 배치로 분할된다. 각 능동 학습 반복 과정에서 주 작업 모델은 배치 내에서 가장 불확실한 데이터를 샘플링하여 레이블링하도록 한다. 제안한 방법은 다양한 이미지 분류 및 세분화 벤치마크에서 평가되었으며, CIFAR10, Caltech-101, ImageNet, Cityscapes에서 뛰어난 성능을 달성하였다. 또한, 불균형 데이터셋에서도 우수한 성능을 보임을 확인하였으며, 무작위로 선택된 초기 레이블 데이터셋에 의해 능동 학습 성능이 저하되는 '콜드 스타트(cold-start)' 문제에 효과적인 해결책이 될 수 있음을 보여주었다.

PT4AL: 주동 학습을 위한 자기지도 사전 과제 활용 | 최신 연구 논문 | HyperAI초신경