2달 전

문법적으로 앞을 내다보는 주의 네트워크를 이용한 문장 압축

Hidetaka Kamigaito; Manabu Okumura
문법적으로 앞을 내다보는 주의 네트워크를 이용한 문장 압축
초록

문장 압축은 긴 문장을 불필요한 단어를 삭제하여 짧은 문장으로 압축하는 작업입니다. 시퀀스-투-시퀀스(Seq2Seq) 기반 모델에서는 디코더가 단방향으로 단어를 유지하거나 삭제할지 결정하므로, 일반적으로 디코딩된 단어와 미래의 시간 단계에서 디코딩될 예정인 미확인 단어 간의 관계를 명시적으로 포착하지 못합니다. 따라서 문법적으로 올바르지 않은 문장을 생성하지 않기 위해, 디코더는 때때로 중요한 단어들을 문장 압축 과정에서 누락시키곤 합니다. 이 문제를 해결하기 위해, 우리는 구문적 선견 주의 어텐션 네트워크(SLAHAN)라는 새로운 Seq2Seq 모델을 제안합니다. 이 모델은 디코딩 과정에서 종속 관계의 부모 단어와 자식 단어를 명시적으로 추적하고, 미래에 디코딩될 중요한 단어들을 포착함으로써 정보가 풍부한 요약을 생성할 수 있습니다. 구글 문장 압축 데이터셋에 대한 자동 평가 결과, SLAHAN은 각각 85.5, 79.3, 71.3, 79.1의 최고 유지 토큰 기반 F1 점수, ROUGE-1 점수, ROUGE-2 점수 및 ROUGE-L 점수를 달성했습니다. 또한 SLAHAN은 긴 문장에 대한 요약 성능도 개선했습니다. 더욱이 인간 평가에서도 SLAHAN은 가독성을 잃지 않으면서 정보성 개선에 기여했습니다.