2달 전

ViT5: 베트남어 생성을 위한 사전 학습된 텍스트-텍스트 변환기

Long Phan; Hieu Tran; Hieu Nguyen; Trieu H. Trinh
ViT5: 베트남어 생성을 위한 사전 학습된 텍스트-텍스트 변환기
초록

우리는 베트남어를 위한 사전 학습된 Transformer 기반 인코더-디코더 모델인 ViT5를 소개합니다. T5 스타일의 자기 감독 사전 학습을 통해 ViT5는 고품질이고 다양한 베트남어 텍스트의 대규모 코퍼스에서 학습되었습니다. 우리는 ViT5를 추상적 요약(Abstractive Text Summarization)과 명명 실체 인식(Named Entity Recognition) 두 가지 하위 텍스트 생성 작업에 대해 벤치마킹했습니다. 추상적 요약은 데이터가 풍부하고 큰 영어에 대해 널리 연구되어 왔지만, 베트남어와 같은 저자원 언어에서는 거의 연구되지 않았습니다. 본 연구에서는 베트남어 추상적 요약과 명명 실체 인식에 대해 철저한 실험을 수행하여 ViT5의 성능을 여러 다른 사전 학습된 Transformer 기반 인코더-디코더 모델들과 비교했습니다. 실험 결과, ViT5는 기존 모델들을 크게 능가하며 베트남어 텍스트 요약에서 최신 수준의 결과를 달성했습니다. 명명 실체 인식 작업에서는 ViT5가 사전 학습된 인코더 기반 Transformer 모델들의 이전 최고 결과와 경쟁력을 보였습니다. 추가 분석을 통해 자기 감독 사전 학습 중 컨텍스트 길이의 중요성이 다양한 설정에서 하위 작업 성능에 미치는 영향을 확인할 수 있었습니다.

ViT5: 베트남어 생성을 위한 사전 학습된 텍스트-텍스트 변환기 | 최신 연구 논문 | HyperAI초신경