7일 전

역설적 번역 과제를 통한 유사문장 탐지 개선

Animesh Nighojkar, John Licato
역설적 번역 과제를 통한 유사문장 탐지 개선
초록

두 문장이 동일한 의미를 지닌다면, 그들은 추론적 성질( inferential properties) 면에서도 상호 동치여야 한다는 것이 당연하다. 즉, 각 문장은 서로를 텍스트적으로 함의해야 한다. 그러나 현재 널리 사용되는 많은 대체 표현(paraphrase) 데이터셋은 단어의 겹침과 문법 구조에 기반한 대체 표현 개념에 의존하고 있다. 대신 문장 간의 추론적 성질에 기반하여 대체 표현을 식별할 수 있도록 학습시킬 수 있을까? 문장 쌍 간의 어휘적·구문적 유사성에 과도하게 의존하지 않고, 의미적 동치성(서로 함의하는 관계를 갖는 의미적 동등성)을 중심으로 대체 표현을 탐지할 수 있는 방법은 가능한가? 본 연구는 이 질문에 대해 적대적(adversarial) 접근 방식을 적용하며, 대체 표현 식별을 위한 새로운 적대적 데이터셋 생성 방법을 제안한다. 이를 '적대적 대체 표현 과제(Adversarial Paraphrasing Task, APT)'라 명명한다. APT는 의미적으로 동치(서로 함의 가능한 의미)이지만 어휘적·구문적으로는 상이한 대체 표현을 생성하도록 참여자를 유도한다. 이러한 문장 쌍은 대체 표현 식별 모델의 성능을 평가하는 데 사용될 수 있으며, 실제로 기존 모델은 거의 무작위 수준의 정확도를 보인다. 이를 통해 모델의 성능을 향상시킬 수 있는 기반을 마련할 수 있다. 데이터셋 생성 속도를 높이기 위해 T5 기반의 자동화 기법을 탐색한 결과, 생성된 데이터셋 역시 모델 정확도 향상에 기여함을 입증하였다. 본 연구는 대체 표현 탐지 기술에 대한 시사점을 논의하며, 제안된 데이터셋을 공개함으로써 문장 수준의 의미 동치성을 보다 정확히 탐지할 수 있는 모델 개발에 기여하고자 한다.

역설적 번역 과제를 통한 유사문장 탐지 개선 | 최신 연구 논문 | HyperAI초신경