2달 전

하나의 임베딩으로부터 모든 워드 임베딩

Sho Takase; Sosuke Kobayashi
하나의 임베딩으로부터 모든 워드 임베딩
초록

자연어 처리(NLP)를 위한 신경망 기반 모델에서 가장 많은 파라미터는 종종 단어 임베딩으로 구성됩니다. 전통적인 모델은 어휘 크기에 따라 크기가 결정되는 큰 임베딩 행렬을 준비합니다. 따라서 이러한 모델을 메모리와 디스크 저장소에 저장하는 것은 비용이 많이 듭니다. 본 연구에서는 전체 파라미터 수를 줄이기 위해 모든 단어의 임베딩을 공유 임베딩을 변환하여 표현하는 방법을 제안합니다. 제안된 방법인 ALONE(all word embeddings from one)는 단어별로 고유하지만 학습되지 않는 필터 벡터를 사용하여 공유 임베딩을 수정하여 단어의 임베딩을 구축합니다. 그런 다음, 구축된 임베딩을 피드포워드 신경망에 입력하여 그 표현력을 높입니다. 직관적으로, 필터 벡터는 전통적인 임베딩 행렬과 동일한 메모리 크기를 차지하며, 이는 어휘 크기에 따라 달라집니다. 이 문제를 해결하기 위해 우리는 메모리 효율적인 필터 구축 방법도 소개합니다. 우리는 사전 학습된 단어 임베딩의 재구성을 통해 ALONE이 충분히 단어 표현으로 사용될 수 있음을 실험적으로 확인하였습니다. 또한, NLP 응용 과제인 기계 번역과 요약화 작업에서도 실험을 수행했습니다. 우리는 ALONE을 현재 최고 성능의 인코더-디코더 모델인 트랜스포머(Transformer)와 결합하여 WMT 2014 영어-독일어 번역 및 DUC 2004 매우 짧은 요약화 작업에서 적은 파라미터로 유사한 점수를 달성하였습니다.

하나의 임베딩으로부터 모든 워드 임베딩 | 최신 연구 논문 | HyperAI초신경