2달 전
ユニバーサル センテンス エンコーダー 注:这里的翻译是日文,而非韩文。正确的韩文翻译如下: 유니버설 문장 인코더
Daniel Cer; Yinfei Yang; Sheng-yi Kong; Nan Hua; Nicole Limtiaco; Rhomni St. John; Noah Constant; Mario Guajardo-Cespedes; Steve Yuan; Chris Tar; Yun-Hsuan Sung; Brian Strope; Ray Kurzweil

초록
우리는 다른 자연어 처리(NLP) 작업으로의 전이 학습을 목표로 문장을 임베딩 벡터로 인코딩하는 모델을 제시합니다. 이 모델들은 효율적이며 다양한 전이 작업에서 정확한 성능을 보입니다. 인코딩 모델의 두 가지 변형은 정확성과 컴퓨팅 자원 사이의 균형을 맞출 수 있도록 설계되었습니다. 두 변형 모두에 대해, 우리는 모델 복잡도, 자원 소비량, 전이 작업 훈련 데이터의 존재 여부 및 작업 성능 간의 관계를 조사하고 보고합니다. 단어 수준 전이 학습을 통해 사전 훈련된 단어 임베딩을 사용하는 기준선과 어떠한 전이 학습도 사용하지 않는 기준선과의 비교를 수행합니다. 우리는 문장 임베딩을 사용한 전이 학습이 단어 수준 전이보다 우수한 경향이 있음을 발견했습니다. 문장 임베딩을 통한 전이 학습에서는 최소한의 지도 훈련 데이터로도 놀라운 성능을 보이는 것을 관찰하였습니다. 또한, 모델 편향성을 감지하기 위한 단어 임베딩 연관성 테스트(Word Embedding Association Tests, WEAT)에서 긍정적인 결과를 얻었습니다. 우리의 사전 훈련된 문장 인코딩 모델은 무료로 다운로드할 수 있으며 TF Hub에서도 제공됩니다.