
다국어 기계 이해(Multilingual Machine Comprehension, MMC)는 주어진 문장 조각에서 질문에 대한 답변을 인용하는 질문-답변(Question-Answering, QA) 하위 작업으로, 질문과 문장 조각이 서로 다른 언어일 수 있습니다. 최근에 104개 언어로事前학습된 BERT의 다국어 변형(m-BERT)은 영어-힌디어 MMC에는 아직 사용되지 않았지만, 다국어 작업에서 제로샷(zero-shot) 및 미세조정(fine-tuned) 설정 모두에서 우수한 성능을 보여주었습니다. 따라서 본 논문에서는 제로샷, 단일 언어(예: 힌디어 질문-힌디어 문장 조각), 그리고 교차 언어(예: 영어 질문-힌디어 문장 조각) 미세조정 설정에서 m-BERT를 이용한 MMC 실험 결과를 소개합니다. 이러한 모델 변형들은 모든 가능한 다국어 설정에서 평가되었으며, 이들 언어에 대한 현재 최고 수준의 순차적 QA 시스템과 비교되었습니다. 실험 결과는 m-BERT가 이전 모델이 사용한 두 데이터셋 모두에서 모든 평가 설정에서 성능을 개선했음을 보여주며, 이를 통해 m-BERT 기반 MMC가 영語와 힌디语의 새로운 최고 수준으로 확립되었습니다. 또한 우리는 앞으로의 연구를 위한 평가 벤치마크로 사용할 것을 제안하는 최근 발표된 XQuAD 데이터셋의 확장 버전에 대한 우리의 결과도 공개합니다.注:在翻译中,"英语" 和 "hinidi语" 应该是 "영어" 和 "힌디어"。以下是修正后的版本:다국어 기계 이해(Multilingual Machine Comprehension, MMC)는 주어진 문장 조각에서 질문에 대한 답변을 인용하는 질문-답변(Question-Answering, QA) 하위 작업으로, 질문과 문장 조각이 서로 다른 언어일 수 있습니다. 최근에 104개 언어로 사전 학습된 BERT의 다국어 변형(m-BERT)은 영語-힌디语 MMC에는 아직 사용되지 않았지만, 다국어 작업에서 제로샷(zero-shot) 및 미세조정(fine-tuned) 설정 모두에서 우수한 성능을 보여주었습니다. 따라서 본 논문에서는 제로샷, 단일 언語(예: 힌디語 질문-힌디語 문장 조각), 그리고 교차 언語(예: 영語 질문-힌디語 문장 조각) 미세조정 설정에서 m-BERT를 이용한 MMC 실험 결과를 소개합니다. 이러한 모델 변형들은 모든 가능한 다국語 설정에서 평가되었으며, 이들 언 ngữ에 대한 현재 최고 수준의 순차적 QA 시스템과 비교되었습니다. 실험 결과는 m-BERT가 이전 모델이 사용한 두 데이터셋 모두에서 모든 평가 설정에서 성능을 개선했음을 보여주며, 이를 통해 m-BERT 기반 MMC가 영語와 힌디语의 새로운 최고 수준으로 확립되었습니다. 또한 우리는 앞으로의 연구를 위한 평가 벤치마크로 사용할 것을 제안하는 최근 발표된 XQuAD 데이터셋의 확장 버전에 대한 우리의 결과도 공개합니다.