2달 전

BERT 기반 영어와 힌디어 다국어 이해

Somil Gupta; Nilesh Khade
BERT 기반 영어와 힌디어 다국어 이해
초록

다국어 기계 이해(Multilingual Machine Comprehension, MMC)는 주어진 문장 조각에서 질문에 대한 답변을 인용하는 질문-답변(Question-Answering, QA) 하위 작업으로, 질문과 문장 조각이 서로 다른 언어일 수 있습니다. 최근에 104개 언어로事前학습된 BERT의 다국어 변형(m-BERT)은 영어-힌디어 MMC에는 아직 사용되지 않았지만, 다국어 작업에서 제로샷(zero-shot) 및 미세조정(fine-tuned) 설정 모두에서 우수한 성능을 보여주었습니다. 따라서 본 논문에서는 제로샷, 단일 언어(예: 힌디어 질문-힌디어 문장 조각), 그리고 교차 언어(예: 영어 질문-힌디어 문장 조각) 미세조정 설정에서 m-BERT를 이용한 MMC 실험 결과를 소개합니다. 이러한 모델 변형들은 모든 가능한 다국어 설정에서 평가되었으며, 이들 언어에 대한 현재 최고 수준의 순차적 QA 시스템과 비교되었습니다. 실험 결과는 m-BERT가 이전 모델이 사용한 두 데이터셋 모두에서 모든 평가 설정에서 성능을 개선했음을 보여주며, 이를 통해 m-BERT 기반 MMC가 영語와 힌디语의 새로운 최고 수준으로 확립되었습니다. 또한 우리는 앞으로의 연구를 위한 평가 벤치마크로 사용할 것을 제안하는 최근 발표된 XQuAD 데이터셋의 확장 버전에 대한 우리의 결과도 공개합니다.注:在翻译中,"英语" 和 "hinidi语" 应该是 "영어" 和 "힌디어"。以下是修正后的版本:다국어 기계 이해(Multilingual Machine Comprehension, MMC)는 주어진 문장 조각에서 질문에 대한 답변을 인용하는 질문-답변(Question-Answering, QA) 하위 작업으로, 질문과 문장 조각이 서로 다른 언어일 수 있습니다. 최근에 104개 언어로 사전 학습된 BERT의 다국어 변형(m-BERT)은 영語-힌디语 MMC에는 아직 사용되지 않았지만, 다국어 작업에서 제로샷(zero-shot) 및 미세조정(fine-tuned) 설정 모두에서 우수한 성능을 보여주었습니다. 따라서 본 논문에서는 제로샷, 단일 언語(예: 힌디語 질문-힌디語 문장 조각), 그리고 교차 언語(예: 영語 질문-힌디語 문장 조각) 미세조정 설정에서 m-BERT를 이용한 MMC 실험 결과를 소개합니다. 이러한 모델 변형들은 모든 가능한 다국語 설정에서 평가되었으며, 이들 언 ngữ에 대한 현재 최고 수준의 순차적 QA 시스템과 비교되었습니다. 실험 결과는 m-BERT가 이전 모델이 사용한 두 데이터셋 모두에서 모든 평가 설정에서 성능을 개선했음을 보여주며, 이를 통해 m-BERT 기반 MMC가 영語와 힌디语의 새로운 최고 수준으로 확립되었습니다. 또한 우리는 앞으로의 연구를 위한 평가 벤치마크로 사용할 것을 제안하는 최근 발표된 XQuAD 데이터셋의 확장 버전에 대한 우리의 결과도 공개합니다.

BERT 기반 영어와 힌디어 다국어 이해 | 최신 연구 논문 | HyperAI초신경