12일 전

다국어 오픈 정보 추출을 위한 어드밴티지 보강형 일관성 있는 번역

{Mausam ., Soumen Chakrabarti, Shubham Mittal, Muqeeth Mohammed, Keshav Kolluru}
다국어 오픈 정보 추출을 위한 어드밴티지 보강형 일관성 있는 번역
초록

감독형 오픈 정보 추출(Open Information Extraction, OpenIE) 분야의 진전은 다른 언어에 비해 학습 데이터가 부족한 점으로 인해 주로 영어에 국한되어 왔다. 본 논문에서는 영어 텍스트를 자동으로 변환하여 다른 언어용 OpenIE 시스템의 학습에 활용할 수 있는 기법을 탐구한다. 우리는 영어 문장과 그에 해당하는 추출 결과를 서로 일관되게 번역하기 위한 '정렬 증강형 제약 번역(Alignment-Augmented Constrained Translation, AACTrans)' 모델을 제안한다. 이 모델은 독립적으로 번역할 경우 발생할 수 있는 어휘나 의미의 변화 없이, 문장과 추출 결과 간의 일관성을 유지한다. AACTrans를 통해 생성된 데이터를 활용해, 우리는 두 단계 생성형 OpenIE 모델인 Gen2OIE를 개발하였다. Gen2OIE는 각 문장에 대해 1) 첫 번째 단계에서 관계를 출력하고, 2) 두 번째 단계에서 해당 관계를 포함하는 모든 추출 결과를 출력한다. 기존 모델이 영어에 특화된 학습 손실을 사용하는 반면, Gen2OIE는 다국어에 일반화 가능한 학습 데이터 변환 기법을 활용하여 관계 커버리지를 높였다. 스페인어, 포르투갈어, 중국어, 힌디어, 텔루구어 등 5개 언어에 대한 평가 결과, AACTrans 데이터를 사용한 Gen2OIE는 기존 시스템 대비 F1 점수에서 6~25%의 성능 향상을 보였다.

다국어 오픈 정보 추출을 위한 어드밴티지 보강형 일관성 있는 번역 | 최신 연구 논문 | HyperAI초신경