16일 전

FILTER: 다국어 언어 이해를 위한 개선된 융합 방법

Yuwei Fang, Shuohang Wang, Zhe Gan, Siqi Sun, Jingjing Liu
FILTER: 다국어 언어 이해를 위한 개선된 융합 방법
초록

대규모 다국어 언어 모델(LM), 예를 들어 mBERT, Unicoder, XLM 등은 다국어 표현 학습 분야에서 큰 성공을 거두었다. 그러나 제로샷 다국어 전이 작업에 적용할 때, 기존 대부분의 방법들은 언어 모델의 미세조정(finetuning) 과정에서 단일 언어 입력만을 사용하며, 다국어 작업에 필수적인 서로 다른 언어 간의 내재적 다국어 정렬(intrinsic cross-lingual alignment)을 활용하지 못하고 있다. 본 논문에서는 XLM의 미세조정을 위해 다국어 데이터를 입력으로 활용하는 개선된 융합 방법인 FILTER를 제안한다. 구체적으로, FILTER는 먼저 얕은 계층에서 원본 언어의 텍스트 입력과 목표 언어로의 번역 텍스트를 독립적으로 인코딩한 후, 중간 계층에서 다국어 간 융합을 수행하여 다국어 지식을 추출하고, 이후 다시 언어별로 세부적인 인코딩을 수행한다. 추론 과정에서는 목표 언어의 텍스트 입력과 그에 대한 원본 언어로의 번역을 기반으로 예측을 수행한다. 분류와 같은 단순한 작업의 경우, 목표 언어로 번역된 텍스트는 원본 언어와 동일한 레이블을 공유한다. 그러나 질문 응답, 개체명 인식(NER), 품사 태깅(POS tagging)과 같은 더 복잡한 작업에서는 이러한 공유 레이블이 정확도가 낮아지거나 존재하지 않을 수 있다. 이를 해결하기 위해, 본 연구는 목표 언어로 번역된 텍스트에 대해 자동 생성된 소프트 편가(label)를 기반으로 한 추가적인 KL-발산 자기지도 학습 손실(KL-divergence self-teaching loss)을 제안한다. 광범위한 실험을 통해 FILTER는 XTREME와 XGLUE라는 두 가지 도전적인 다국어 다중 작업 벤치마크에서 새로운 최고 성능(SOTA)을 달성함을 입증하였다.

FILTER: 다국어 언어 이해를 위한 개선된 융합 방법 | 최신 연구 논문 | HyperAI초신경