2달 전

비용 효율적인 사전 학습 데이터 선택: 소셜 미디어에서 BERT를 사전 학습하는 사례 연구

Xiang Dai; Sarvnaz Karimi; Ben Hachey; Cecile Paris
비용 효율적인 사전 학습 데이터 선택: 소셜 미디어에서 BERT를 사전 학습하는 사례 연구
초록

최근 도메인 특화 BERT 모델에 대한 연구에서는 모델이 도메인 내 데이터로 사전 학습을 받을 때 다운스트림 작업의 효과성이 향상되는 것으로 나타났습니다. 이러한 모델에서 사용되는 사전 학습 데이터는 주제(예: 생물학 또는 컴퓨터 과학)를 기준으로 선택되는 경우가 많습니다. 소셜 미디어 텍스트의 다양한 응용 분야와 독특한 언어 다양성을 고려하여, 우리는 트윗과 포럼 텍스트 각각을 대상으로 두 개의 모델을 사전 학습시키고, 이 두 리소스의 효과성을 경험적으로 입증하였습니다. 또한, 유사성 측정 방법이 도메인 내 사전 학습 데이터 선정에 어떻게 활용될 수 있는지 조사하였습니다. 우리의 사전 학습된 모델은 https://bit.ly/35RpTf0 에서 공개적으로 제공됩니다.

비용 효율적인 사전 학습 데이터 선택: 소셜 미디어에서 BERT를 사전 학습하는 사례 연구 | 최신 연구 논문 | HyperAI초신경