2달 전

반감독 시퀀스 모델링과 크로스 뷰 트레이닝

Kevin Clark; Minh-Thang Luong; Christopher D. Manning; Quoc V. Le
반감독 시퀀스 모델링과 크로스 뷰 트레이닝
초록

비지도 표현 학습 알고리즘인 word2vec 및 ELMo는 대량의 비라벨 텍스트를 활용할 수 있기 때문에 많은 지도 NLP 모델의 정확성을 개선합니다. 그러나 지도 모델은 주요 학습 단계에서 작업별 라벨 데이터만을 통해 학습합니다. 따라서 우리는 라벨과 비라벨 데이터를 혼합하여 Bi-LSTM 문장 인코더의 표현을 개선하는 반지도 학습 알고리즘인 Cross-View Training(CVT)을 제안합니다. 라벨이 있는 예제에서는 표준 지도 학습을 사용합니다. 라벨이 없는 예제에서는 CVT가 입력의 제한된 시야(예: 문장의 일부만)를 보는 보조 예측 모듈들이 전체 입력을 보는 완전한 모델의 예측과 일치하도록 가르칩니다. 보조 모듈과 완전한 모델이 중간 표현을 공유하기 때문에, 이는 다시 완전한 모델의 성능을 향상시킵니다. 또한, CVT가 다중 작업 학습과 결합될 때 특히 효과적임을 보여줍니다. 우리는 CVT를 5개의 시퀀스 태깅 작업, 기계 번역, 그리고 의존성 해석에 평가하였으며, 최신 연구 결과를 달성하였습니다.

반감독 시퀀스 모델링과 크로스 뷰 트레이닝 | 최신 연구 논문 | HyperAI초신경