
우리는 대규모 비라벨 데이터셋을 엔드투엔드 방식으로 분류하여 자기 지도 표현 학습 방법을 제시합니다. 이를 TWIST라고 명명하였습니다. TWIST는 두 개의 증강된 이미지에 대한 쌍둥이 클래스 분포를 생성하기 위해 소프트맥스 연산으로 종료되는 시아메즈 네트워크를 사용합니다. 감독 없이 우리는 서로 다른 증강에 대한 클래스 분포가 일관되도록 강제합니다. 그러나, 단순히 증강 간의 차이를 최소화하는 것은 모든 이미지에 대해 동일한 클래스 확률 분포를 출력하는 붕괴된 해법(collapsed solutions)을 초래할 수 있습니다. 이 경우 입력 이미지에 대한 정보가 남아 있지 않습니다. 이 문제를 해결하기 위해, 우리는 입력과 클래스 예측 사이의 상호 정보(mutual information)를 최대화하는 방법을 제안합니다. 구체적으로, 각 샘플에 대한 분포의 엔트로피를 최소화하여 각 샘플의 클래스 예측이 확실하도록 하며, 평균 분포의 엔트로피를 최대화하여 서로 다른 샘플들의 예측이 다양하도록 합니다. 이렇게 하면 TWIST는 비대칭 네트워크, 그래디언트 중단(stop-gradient operation), 모멘텀 인코더(momentum encoder) 등의 특정 설계 없이도 자연스럽게 붕괴된 해법을 피할 수 있습니다. 그 결과, TWIST는 다양한 작업에서 기존 최고 성능 방법들을 능가하였습니다. 특히, 1%의 ImageNet 라벨만 사용하여 ResNet-50 백본(backbone)을 활용한 준감독 학습(semi-supervised learning)에서 61.2%의 Top-1 정확도를 달성하였으며, 이는 이전 최고 결과보다 절대적으로 6.2% 향상되었습니다. 코드와 사전 학습된 모델은 다음 링크에서 제공됩니다: https://github.com/bytedance/TWIST