상위에서 하위 및 하위에서 상위 추론을 활용한 장문 요약

문서 요약은 긴 문서를 요약하면서 핵심 정보를 유지하는 것을 목표로 한다. 요약 모델의 성공 여부는 원본 문서 내 단어나 토큰의 은닉 표현(latent representations)을 정확히 추론하는 데 달려 있다. 최근 대부분의 모델은 순수하게 하향식(bottom-up) 방식으로 은닉 표현을 추론하는 트랜스포머 인코더를 사용한다. 또한, 자기 주목(self-attention) 기반 추론 모델은 시퀀스 길이에 대해 이차 복잡도(quadratic complexity) 문제를 겪는다. 본 연구에서는 이러한 두 가지 측면에서 요약 모델의 성능을 향상시키기 위한 체계적인 추론 프레임워크를 제안한다. 제안하는 프레임워크는 문서의 계층적 은닉 구조(hierarchical latent structure)를 가정하며, 상위 레벨은 더 넓은 시간 스케일에서 장거리 종속성을 포착하고, 하위 토큰 레벨은 세부 정보를 유지한다. 특히, 이러한 계층 구조는 토큰 표현을 하향식과 상향식(top-down) 양방향으로 업데이트할 수 있도록 한다. 하향식 전파 과정에서는 지역적 자기 주목(local self-attention)을 활용하여 효율성을 극대화하고, 상향식 보정을 통해 토큰들이 장거리 종속성을 효과적으로 포착할 수 있도록 한다. 제안된 프레임워크의 효과는 다양한 요약 데이터셋—이야기 형 문서, 대화형 문서, 과학 문서, 뉴스 기사 등—에서 입증되었다. 제안 모델은 (1) 전면적 주목(full attention) 트랜스포머에 비해 짧은 문서 요약에서 경쟁력 있는 또는 더 우수한 성능을 보이며, 메모리 및 계산 효율성이 뛰어나고, (2) 최근의 효율적인 트랜스포머 모델에 비해 다양한 긴 문서 요약 벤치마크에서 최고 수준의 성능을 달성한다. 또한, 최근의 GPT-3 기반 모델과 비교해 전체 책을 요약하는 데 성공했으며, 파라미터 수는 0.27%에 불과한 464M(175B 대비)이며, 훈련 데이터도 훨씬 적게 사용해 경쟁적인 성능을 달성함을 보였다. 이러한 결과는 제안된 프레임워크의 일반적 적용 가능성과 실질적 이점을 입증한다.