11일 전

긴 소스 시퀀스를 활용한 생성을 위한 계층적 학습

Tobias Rohde, Xiaoxia Wu, Yinhan Liu
긴 소스 시퀀스를 활용한 생성을 위한 계층적 학습
초록

현재 시퀀스 to 시퀀스(seq2seq) 모델의 주요 과제 중 하나는 요약 및 문서 수준 기계 번역과 같은 작업에서 긴 시퀀스를 처리하는 것이다. 이러한 작업들은 모델이 토큰 수준뿐 아니라 문장 및 단락 수준에서도 추론을 수행해야 한다는 요구를 수반한다. 우리는 여러 시퀀스 to 시퀀스 작업에서 표준 트랜스포머보다 우수한 성능을 보이는 새로운 계층적 어텐션 트랜스포머 기반 아키텍처(Hierarchical Attention Transformer, HAT)를 설계하고 연구하였다. 또한 본 모델은 PubMed, arXiv, CNN/DM, SAMSum, AMI를 포함한 네 가지 요약 작업에서 최신 기술(SOTA) 수준의 ROUGE 점수를 달성하였다. 더불어 WMT20 영어-독어 번역 작업에서 문서 수준 기계 번역 기준 모델보다 우수한 성능을 보였다. 계층적 인코더-디코더 어텐션을 시각화함으로써 계층 구조가 어떤 정보를 학습하는지 분석하였으며, 인코더 전용 사전학습에서의 계층적 학습 방식을 탐구하고 분류 작업에서의 성능을 평가하였다.

긴 소스 시퀀스를 활용한 생성을 위한 계층적 학습 | 최신 연구 논문 | HyperAI초신경