19일 전

구조적 자기지도 학습 목표를 통한 트랜스포머

Luca Di Liello
구조적 자기지도 학습 목표를 통한 트랜스포머
초록

이 논문은 자연어 모델의 사전 훈련을 비지도(raw) 데이터를 활용하여 개선함으로써, 하류 응용에 더 효율적이고 일치하는 모델을 만드는 데 초점을 맞춘다.첫 번째 부분에서는 BERT의 마스킹 언어 모델링(Masked Language Modeling, MLM)에 대한 세 가지 대안적 사전 훈련 목적을 제안한다. 이는 랜덤 토큰 대체(Random Token Substitution, RTS), 클러스터 기반 랜덤 토큰 대체(Cluster-based Random Token Substitution, C-RTS), 그리고 스왑된 언어 모델링(Swapped Language Modeling, SLM)이다. 이 목적들은 마스킹이 아닌 토큰 교체를 기반으로 하며, RTS와 C-RTS는 토큰의 원본 존재 여부를 예측하는 데 초점을 두고, SLM은 원래의 토큰 값을 예측하는 데 목적이 있다. 실험 결과, RTS와 C-RTS는 MLM과 비슷한 성능을 유지하면서도 사전 훈련 시간을 더 적게 소요함을 보였다. 놀랍게도, SLM은 동일한 계산 자원을 사용함에도 불구하고 일부 작업에서 MLM을 능가하는 성능을 보였다.두 번째 부분에서는 하류 응용과 구조적으로 일치하는 자기지도(self-supervised) 사전 훈련 작업을 제안하여 레이블링된 데이터의 필요성을 줄인다. 대규모 텍스트 코퍼스인 위키백과와 CC-News를 활용하여, 텍스트 스팬이 동일한 단락 또는 문서에서 유래했는지를 다양한 방식으로 인식하도록 모델을 훈련시킨다. 기존 모델인 RoBERTa, ELECTRA, DeBERTa, BART, T5 등을 기반으로 지속적인 사전 훈련을 수행함으로써, 사실 확인(Fact Verification), 답변 문장 선택(Answer Sentence Selection), 요약(Summarization) 등의 작업에서 두드러진 성능 향상을 입증하였다. 특히 레이블링 데이터가 제한적인 경우 이러한 성능 향상이 더욱 두드러졌다. 제안된 목적은 FEVER(dev set), ASNQ, WikiQA, TREC-QA 등 다양한 벤치마크 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성하였으며, 요약 품질 또한 향상시켰다. 중요한 점은 이러한 기술들이 트랜스포머 모델의 내부 구조를 변경하지 않고도 다른 기법들과 쉽게 통합될 수 있다는 점이며, 이로 인해 다양한 자연어 처리(NLP) 응용에 유연하게 적용 가능하다.

구조적 자기지도 학습 목표를 통한 트랜스포머 | 연구 논문 | HyperAI초신경