2달 전
정보 최대화 자기 증강 학습을 통한 이산 표현 학습
Weihua Hu; Takeru Miyato; Seiya Tokui; Eiichi Matsumoto; Masashi Sugiyama

초록
데이터의 이산 표현을 학습하는 것은 표현의 간결성과 해석의 용이성 때문에 기계 학습의 중심적인 과제입니다. 이 과제는 클러스터링과 해시 학습을 특수한 경우로 포함합니다. 딥 신경망은 데이터의 비선형성을 모델링하고 대규모 데이터셋에 확장할 수 있으므로 유망한 도구로 여겨집니다. 그러나 그들의 모델 복잡도가 매우 크기 때문에, 우리는 관심 있는 응용 분야에서 의도된 불변성을 나타내는 유용한 표현을 학습하기 위해 신경망을 주의 깊게 규제해야 합니다. 이를 위해 우리는 정보 최대화 자기 증강 훈련(Information Maximizing Self-Augmented Training, IMSAT)이라는 방법을 제안합니다. IMSAT에서는 데이터 증강을 사용하여 이산 표현에 불변성을 부과합니다. 구체적으로, 증강된 데이터 포인트의 예측된 표현이 원래 데이터 포인트의 표현과 끝까지 연결(end-to-end)되는 방식으로 가까워지도록 장려합니다. 동시에, 우리는 데이터와 그 예측된 이산 표현 사이의 정보론적 종속성을 최대화합니다. 벤치마크 데이터셋에서 수행한 광범위한 실험 결과, IMSAT가 클러스터링과 비지도 해시 학습 모두에서 최신 연구 결과를 생성한다는 것을 보여주었습니다.