2달 전
ChuLo: 긴 문서 처리를 위한 청크 수준의 주요 정보 표현
Li, Yan ; Han, Soyeon Caren ; Dai, Yue ; Cao, Feiqi

초록
트랜스포머 기반 모델은 다양한 자연어 처리(NLP) 작업에서 뛰어난 성공을 거두었지만, 긴 문서를 처리하는 능력은 계산 제약으로 인해 한계가 있습니다. 전통적인 접근 방식인 입력 절삭, 희소 자기 주의(sparse self-attention), 그리고 분할(chunking)은 이러한 문제를 완화하려고 시도하지만, 종종 정보 손실을 초래하고 모델이 장거리 의존성을 포착하는 능력을 저해합니다. 본 논문에서는 이러한 제약을 해결하기 위한 새로운 분할 표현 방법인 ChuLo를 소개합니다. 우리의 ChuLo는 비지도 키워프 추출을 사용하여 입력 토큰을 그룹화하며, 의미적으로 중요한 키워프 기반 분할을 강조하여 핵심 문서 내용을 유지하면서 입력 길이를 줄입니다. 이 접근 방식은 정보 손실을 최소화하고 트랜스포머 기반 모델의 효율성을 개선합니다. 특히, 전체 시퀀스 맥락에 의존하는 미세한 주석(fine-grained annotations)이 손실되지 않도록 하기 위해, 긴 문서 이해에서 모든 토큰을 보존하는 것은 중요합니다. 우리는 여러 긴 문서 분류 작업과 긴 문서 토큰 분류 작업에서 우리의 방법을 평가하였으며, 철저한 질적 및 양적 분석을 통해 그 효과성을 입증하였습니다. 우리의 구현은 https://github.com/adlnlp/Chulo에서 오픈 소스로 제공됩니다.