16일 전

자기지도학습을 위한 행렬 정보이론

Yifan Zhang, Zhiquan Tan, Jingqin Yang, Weiran Huang, Yang Yuan
자기지도학습을 위한 행렬 정보이론
초록

최대 엔트로피 인코딩 프레임워크는 SimSiam, Barlow Twins, MEC와 같은 다양한 비대조 학습 방법들에 대한 통합적인 시각을 제공한다. 이 프레임워크에 영감을 받아, 우리는 행렬 정보이론을 활용하여 최대 엔트로피 인코딩 손실을 행렬 균일성 손실로 해석하는 새로운 접근법인 Matrix-SSL을 제안한다. 또한 Matrix-SSL은 서로 다른 브랜치의 공분산 행렬을 직접적으로 정렬하는 행렬 정렬 손실을 원활하게 통합함으로써 최대 엔트로피 인코딩 방법을 강화한다. 실험 결과, 선형 평가 설정에서 ImageNet 데이터셋과 전이 학습 작업에서 MS-COCO 데이터셋에서 기존 최고 성능(SOTA) 방법들을 능가함을 확인하였다. 특히 MS-COCO에서 전이 학습 작업을 수행할 경우, 기존 SOTA 방법인 MoCo v2 및 BYOL과 비교하여 단 400 에포크의 사전학습만으로도 최대 3.3%의 성능 향상을 달성하였다. 또한, 행렬 크로스 엔트로피 손실을 사용하여 7B 규모의 모델을 미세조정함으로써 표현 학습을 언어 모델링 환경에 도입해보았으며, 기준 크로스 엔트로피 손실 대비 GSM8K 데이터셋에서 3.1%의 성능 향상을 기록하였다. 코드는 https://github.com/yifanzhang-pro/Matrix-SSL 에 공개되어 있다.

자기지도학습을 위한 행렬 정보이론 | 최신 연구 논문 | HyperAI초신경