HyperAI초신경

확장된 장기 단기 기억(xLSTM)

2024년 5월 8일, LSTM의 제안자이자 창립자인 Sepp Hochreiter는 arXiv에 xLSTM의 사전 인쇄 논문을 업로드했습니다. "xLSTM: 확장된 장기 단기 기억". 이 기사에서는 다음과 같은 의문을 제기합니다. LLM의 최신 기술을 사용하여 LSTM을 수십억 개의 매개변수로 확장할 때 언어 모델링을 얼마나 발전시킬 수 있을까요? 본 논문에서는 LSTM 설계의 중요한 진전을 제시하고, 기존 LSTM의 한계를 해결하며, 대규모 언어 모델(LLM)에서 성능을 향상시키는 새로운 기능을 소개합니다. 

xLSTM은 확장된 장기 단기 메모리를 의미합니다. xLSTM은 장기 단기 기억(LSTM)의 개념, 즉 상수 오류 회전목마와 게이팅의 개념을 되살린 것입니다. Sepp Hochreiter와 Jürgen Schmidhuber가 도입한 LSTM은 1990년대에 혁신적인 딥 러닝 아키텍처로, 시계열이나 언어 모델링과 같은 순차적 작업에서 사라지는 기울기 문제를 성공적으로 극복했습니다. 그 이후로 LSTM은 시간의 시험을 견뎌냈고 수많은 딥 러닝 성공 사례에 기여했습니다. 특히 최초의 대규모 언어 모델(LLM)을 형성했습니다. 그러나 병렬 셀프 어텐션을 핵심으로 하는 트랜스포머 기술의 등장은 규모 면에서 LSTM을 능가하는 새로운 시대의 도래를 알렸습니다.

xLSTM 제품군 및 구성 요소 소개

위 그림에서 볼 수 있듯이 xLSTM 제품군과 그 구성 요소에 대한 개요가 제공됩니다. 왼쪽에서 오른쪽으로:

  1. 상수 오류 캐러셀과 게이팅이 적용된 원래 LSTM 메모리 셀입니다.
  2. 두 개의 새로운 보관 장치가 도입되었습니다.
  • sLSTM(스칼라 지수 게이팅과 새로운 메모리 하이브리드 기술을 적용한 LSTM.
  • mLSTM(행렬 지수 게이팅, 병렬 학습, 공분산 업데이트 규칙, 셀 상태의 행렬 저장 기능을 갖춘 LSTM)입니다.

3. mLSTM과 sLSTM 메모리 셀을 잔여 블록에 통합하여 xLSTM 블록을 형성합니다.

4. xLSTM 아키텍처는 잔여물을 사용하여 xLSTM 블록을 쌓아서 구성됩니다.

대규모 언어 모델(LLM)에 대한 xLSTM의 중요성

xLSTM 아키텍처의 도입은 대규모 언어 모델(LLM)의 개발과 성능에 상당한 영향을 미칩니다. xLSTM은 기존 LSTM의 한계를 해결하고 지수 게이팅, 행렬 메모리, 병렬화 가능한 아키텍처와 같은 새로운 구성 요소를 통합함으로써 LLM에 새로운 가능성을 열어줍니다.

대규모 언어 모델(LLM)에 대한 xLSTM의 주요 장점 중 하나는 긴 시퀀스와 대규모 언어 모델링 작업을 효과적으로 처리할 수 있는 기능입니다. xLSTM의 선형 시간 복잡도와 상수 메모리 복잡도는 Transformer 기반 모델과 관련된 계산 비용과 메모리 사용량의 2차적 증가를 초래하지 않으면서 긴 텍스트 데이터를 처리하는 데 적합합니다. 이러한 효율성의 이점은 일반적으로 훈련 및 추론 과정에서 대량의 텍스트 데이터를 처리해야 하는 LLM에 특히 유용합니다.

또한 xLSTM은 Transformer LLM 및 RWKV와 비교했을 때 더 낮은 복잡도 점수로 향상된 언어 모델링 성능을 보여 LLM에서 생성된 텍스트의 품질과 일관성을 개선할 수 있는 잠재력이 있음을 보여줍니다. xLSTM의 매트릭스 메모리와 지수 게이팅 메커니즘을 통해 훈련 데이터에서 더욱 포괄적이고 자세한 정보를 수집하고 보관할 수 있어 더 나은 언어 이해 및 생성 기능을 달성할 수 있습니다.

xLSTM 논문에서 제안된 스케일링 법칙은 더 큰 데이터 세트(예: 300B 토큰이 있는 SlimPajama 코퍼스)에서 학습한 경우에도 xLSTM의 성능 이점이 여전히 존재한다는 것을 보여줍니다. LLM은 최첨단 성능을 달성하기 위해 일반적으로 대량의 교육 데이터에 의존하므로 이러한 확장성은 LLM에 매우 중요합니다. xLSTM은 더 넓은 범위에서 효율성과 모델링 능력을 유지할 수 있는 능력을 갖추고 있어 향후 LLM을 위한 유망한 아키텍처가 될 것입니다.

게다가 xLSTM 아키텍처의 유연성 덕분에 mLSTM과 sLSTM 모듈의 비율을 다양하게 사용할 수 있어 특정 언어 모델링 작업에 맞게 사용자 정의하고 조정할 수 있는 기회가 제공됩니다. 이러한 적응성은 LLM에 귀중한데, 이는 LLM이 다양한 자연어 처리 작업에 적용되기 때문이며, 각 작업에는 서로 다른 요구 사항과 특성이 있기 때문입니다.

xLSTM 아키텍처는 LLM 연구와 혁신을 위한 새로운 길을 열어줍니다. xLSTM에 지수 게이팅과 매트릭스 메모리를 도입함으로써 Transformer 기반 모델의 지배력에 도전하고 더 높은 효율성과 성능을 제공할 수 있는 대체 아키텍처의 탐색이 촉진됩니다. xLSTM의 성공은 LLM을 위한 새로운 메모리 구조, 게이팅 메커니즘, 병렬화 기술에 대한 추가 연구에 영감을 줄 수 있습니다.

요약하자면, xLSTM 아키텍처는 LLM에 상당한 개선을 가져다줍니다. 효율성, 확장성, 향상된 언어 모델링 기능 덕분에 Transformer 기반 모델에 대한 유망한 대안이 될 수 있습니다. LLM 분야가 계속 발전함에 따라 xLSTM이 도입한 통찰력과 혁신은 미래의 발전을 형성하고 자연어 처리에서 가능한 것의 경계를 넓힐 가능성이 높습니다. xLSTM 논문은 고품질의 언어 이해 및 생성을 제공하면서 대량의 텍스트 데이터를 효율적으로 처리할 수 있는 LLM의 새로운 시대를 위한 기반을 마련했습니다.

참고문헌

【1】xLSTM: 대규모 언어 모델을 위한 장기 단기 메모리 향상