과학 문헌 표현을 위한 인용 임베딩을 활용한 근방 대조적 학습

과학 문서 표현 학습은 대조 학습 목표를 통해 크게 개선될 수 있으며, 이때의 도전 과제는 원하는 유사성 의미를 인코딩하는 양적 및 음적 훈련 샘플을 생성하는 것입니다. 이전 연구에서는 이산적인 인용 관계에 의존하여 대조 샘플을 생성했습니다. 그러나 이산적인 인용은 유사성을 강제로 절단합니다. 이는 유사성 기반 학습과 직관적으로 맞지 않으며, 직접적인 인용이 없더라도 과학 논문들이 매우 유사할 수 있다는 사실을 무시합니다. - 이것은 관련 연구를 찾는 데 핵심적인 문제입니다. 대신, 우리는 인용 그래프 임베딩에서 제어된 최근접 이웃 샘플링을 사용하여 대조 학습을 수행합니다. 이러한 제어는 연속적인 유사성을 학습하고, 학습하기 어려운 음성 및 양성 샘플을 추출하며, 샘플링 마진을 조절하여 음성 및 양성 샘플 간의 충돌을 피할 수 있게 합니다. 그 결과 SciNCL 방법은 SciDocs 벤치마크에서 최신 기술보다 우수한 성능을 보였습니다. 또한, 이 방법이 샘플 효율적으로 모델을 훈련(또는 조정)할 수 있으며, 최근의 훈련 효율적인 방법들과 결합될 수 있음을 입증하였습니다. 놀랍게도, 일반 영역 언어 모델도 이러한 방식으로 훈련되었을 때 특정 영역에서 사전 훈련된 기준모델들보다 더 우수한 성능을 보였습니다.해석 주석:- "contrastive learning objectives"는 "대조 학습 목표"로 번역되었습니다.- "positive and negative training samples"는 "양적 및 음적 훈련 샘플"로 번역되었습니다.- "discrete citation relations"는 "이산적인 인용 관계"로 번역되었습니다.- "controlled nearest neighbor sampling over citation graph embeddings"는 "인용 그래프 임베딩에서 제어된 최근접 이웃 샘플링"으로 번역되었습니다.- "sampling margin"는 "샘플링 마진"으로 번역되었습니다.- "SciNCL"와 "SciDocs benchmark"는 고유 명사로서 그대로 유지되었습니다.- "general-domain language model"와 "in-domain pretrained baselines"는 각각 "일반 영역 언어 모델"과 "특정 영역에서 사전 훈련된 기준모델들"로 번역되었습니다.