
초록
다양한 언어로 훈련 데이터를 번역하는 것이 교차 언어 전송을 개선하기 위한 실용적인 해결책으로 부상하고 있습니다. 정보 추출이나 질문 응답과 같은 구간 수준 주석이 포함된 작업의 경우, 원문을 번역한 텍스트에 주석된 구간을 매핑하기 위해 추가적인 라벨 투영 단계가 필요합니다. 최근에는 원문 문장의 라벨된 구간 주변에 특수 마커를 삽입하여 번역과 투영을 동시에 수행하는 간단한 마크-번역 방법을 활용한 몇몇 시도가 있었습니다. 그러나 우리가 알고 있는 한, 이 접근 방식이 단어 정렬 기반의 전통적인 주석 투영과 어떻게 비교되는지에 대한 경험적 분석은 이루어지지 않았습니다. 본 논문에서는 57개 언어와 세 가지 작업(QA, NER, 그리고 이벤트 추출)에 걸쳐 두 방법의 효과성과 제한성을 평가하기 위한 광범위한 경험적 연구를 제시합니다. 이를 통해 문헌에서 중요한 공백을 메우고자 합니다. 실험 결과는 우리가 최적화하여 'EasyProject'라고 명명한 마크-번역 방법이 다양한 언어에 쉽게 적용되며, 예상보다 우수하게 작동하여 더 복잡한 단어 정렬 기반 방법보다 우월함을 보여주었습니다. 우리는 종합 작업 성능에 영향을 미치는 여러 핵심 요인들을 분석하였으며, EasyProject가 번역 후 라벨 구간 경계를 정확히 유지할 수 있기 때문에 잘 작동함을 입증하였습니다. 모든 코드와 데이터를 공개적으로 배포할 계획입니다.