17일 전
하이퍼트랜스포머: 지도 및 반지도 학습 환경에서의 희소 샘플 학습을 위한 모델 생성
Andrey Zhmoginov, Mark Sandler, Max Vladymyrov

초록
이 연구에서는 지도 및 반지도적 소수 샘플 학습을 위한 Transformer 기반 모델인 HyperTransformer을 제안한다. 이 모델은 지원 샘플(support samples)로부터 직접 컨볼루션 신경망(CNN)의 가중치를 생성한다. 대용량 Transformer 모델이 소규모 생성된 CNN 모델의 특정 작업에 대한 의존성을 인코딩함에 따라, 우리는 큰 작업 공간의 복잡성과 개별 작업의 복잡성을 효과적으로 분리할 수 있다. 특히 고정된 보편적인 작업 독립형 임베딩을 학습하는 것이 최적화되지 않는 소규모 타겟 CNN 아키텍처에 대해 본 방법은 작업에 대한 정보가 모든 모델 파라미터를 조절할 수 있도록 함으로써 더 우수한 성능을 달성한다. 더 큰 모델에 대해서는 마지막 레이어만 생성하는 것으로도 최신 기술 대비 경쟁력 있는 또는 더 나은 결과를 얻을 수 있으며, 이는 엔드투엔드 미분 가능(end-to-end differentiable)한 특성을 갖는다.