Command Palette
Search for a command to run...
Sangmin Bae Bilge Acun Haroun Habeeb Seungyeon Kim Chien-Yu Lin Liang Luo Junjie Wang Carole-Jean Wu

초록
최근 대규모 언어 모델의 발전은 자가 주의(self-attention) 메커니즘과 구조화된 상태공간 모델(예: Mamba)을 결합한 하이브리드 아키텍처가 특히 긴 컨텍스트 작업에서 모델링 품질과 계산 효율성 사이에 매력적인 균형을 달성할 수 있음을 보여주고 있다. 이러한 하이브리드 모델은 희망적인 성능을 보이고 있으나, 하이브리드화 전략 간의 체계적인 비교 및 그 성능 향상의 핵심 요인에 대한 분석은 아직 연구 커뮤니티에 명확히 공유되지 않았다. 본 연구에서는 계층 간(순차적) 또는 계층 내(병렬적) 융합 기반의 하이브리드 아키텍처를 포괄적으로 평가한다. 우리는 언어 모델링 성능, 긴 컨텍스트 처리 능력, 스케일링 분석, 학습 및 추론 효율성 등 다양한 관점에서 이러한 설계를 평가한다. 계산 원천(primitive)의 핵심 특성을 탐구함으로써 각 하이브리드화 전략에서 가장 중요한 요소를 식별하고, 이를 바탕으로 두 가지 하이브리드 모델에 대한 최적의 설계 가이드라인을 제안한다. 본 연구의 종합적 분석은 하이브리드 언어 모델 개발을 위한 실용적인 지침과 귀중한 통찰을 제공하며, 아키텍처 구성 최적화를 촉진한다.