12일 전
Perturb, Predict & Paraphrase: 노이즈 스튜던트를 활용한 이미지 캡셔닝을 위한 반감독 학습
{Maneesh Singh, Deepak Mittal, Preethi Jyothi, Pranay Reddy Samala, Arjit Jain}

초록
최근의 반감독 학습(Semi-Supervised Learning, SSL) 방법들은 주로 다중 클래스 분류 작업에 집중되어 있다. 분류 작업은 증강 과정에서 클래스 레이블을 쉽게 혼합할 수 있으나, 이미지 캡셔닝과 같은 과제에서 나타나는 단어 시퀀스와 같은 구조화된 출력으로는 직접적으로 확장되지 않는다. Noisy Student Training은 이미지 분류를 위한 최근의 SSL 프레임워크로, 자기 학습(self-training)과 테이처-스터디언 학습의 확장된 형태이다. 본 연구에서는 이미지 캡셔닝 작업을 위한 Noisy Student SSL 프레임워크에 대해 심층적인 분석을 수행하고, 최신 기준을 초과하는 성능을 달성하였다. 원래 알고리즘은 원시 이미지를 변형하고 각 변형된 이미지에 대해 특징을 계산하는 계산적으로 비용이 큰 증강 단계에 의존하고 있다. 본 연구에서는 원시 이미지 증강 없이도, 학습자 모델의 입력 이미지에 대해 단순한 모델 및 특징 변형을 적용하는 것이 SSL 학습에 유익함을 보였다. 또한, 가짜 레이블의 품질을 향상시키고 성능을 크게 개선하기 위해 문장 재구성 생성기(paraphrase generator)를 효과적으로 활용할 수 있음을 제시하였다. 라벨이 제한된 환경(MS-COCO 데이터셋의 1% 라벨 데이터)에서의 최종 성과는 기존 최고 성능 기법보다 BLEU4 점수에서 2.5점, CIDEr 점수에서 11.5점 높게 기록하여, 기존 기법을 크게 상회하였다.