Command Palette
Search for a command to run...
Youjin Wang Yangjingyi Chen Jiahao Yan Jiaxuan Lu Xiao Sun

초록
데이터의 폭발적 증가에 따라, 자연어 처리 및 생물정보학과 같은 분야에서 긴 시퀀스 모델링은 점점 더 중요한 역할을 하고 있다. 그러나 기존의 방법들은 효율성과 메모리 사용 간에 내재적인 트레이드오프를 겪고 있다. 순환 신경망(RNN)은 기울기 소실 및 기울기 폭주 문제로 인해 확장성이 어렵다. 반면 트랜스포머는 전역적 의존성을 모델링할 수 있지만, 시간 복잡도가 이차 함수 수준에 머무르는 제약이 있다. 최근 Mamba와 같은 선택적 상태공간 모델이 등장하여 O(n)의 시간 복잡도와 O(1)의 순환 추론 복잡도를 갖춘 높은 효율성을 보였지만, 장기 기억의 경우 지수적으로 감쇠되는 문제가 존재한다. 본 연구에서는 수학적 도출과 정보이론적 분석을 통해 Mamba의 기억 감쇠 메커니즘을 체계적으로 규명하며, 근본적인 질문에 답한다. 즉, Mamba의 장기 기억은 어떤 본질을 지니며, 정보를 어떻게 유지하는가? 주요 정보 손실을 정량화하기 위해, 계층 내 및 계층 간의 품질 저하를 동시에 측정할 수 있는 수평-수직 메모리 충실도 지표를 도입한다. 장문의 문서를 읽을 때 인간이 주요 정보를 요약하고 저장하는 방식을 영감으로 삼아, 상태 요약 메커니즘과 계층 간, 토큰 간의 주의 메커니즘을 통합한 새로운 아키텍처인 MemMamba를 제안한다. 이는 장기 기억 상실 문제를 완화하면서도 선형 복잡도를 유지한다. MemMamba는 PG19 및 Passkey Retrieval과 같은 긴 시퀀스 벤치마크에서 기존 Mamba 변종 및 트랜스포머 대비 유의미한 성능 향상을 달성하며, 추론 효율성 측면에서 48%의 속도 향상을 제공한다. 이론적 분석과 실증 결과를 통해 MemMamba가 복잡도-메모리 트레이드오프에서 획기적인 성과를 이뤄냈다는 것이 입증되었으며, 초장거리 시퀀스 모델링을 위한 새로운 패러다임을 제시한다.