Command Palette
Search for a command to run...
Sangmin Bae Bilge Acun Haroun Habeeb Seungyeon Kim Chien-Yu Lin Liang Luo Junjie Wang Carole-Jean Wu

要約
近年の大規模言語モデルにおける進展は、自己注意機構と構造化状態空間モデル(例:Mamba)を組み合わせたハイブリッドアーキテクチャが、特に長文文脈処理において、モデルの表現力と計算効率の間で優れたバランスを達成できることを示している。これらのハイブリッドモデルは有望な性能を発揮しているものの、そのハイブリダイゼーション戦略の体系的な比較や、その有効性の背後にある主要な要因に関する分析は、まだコミュニティに十分に共有されていない。本研究では、層間(逐次的)融合または層内(並列的)融合に基づくハイブリッドアーキテクチャについて包括的な評価を行う。これらの設計を、言語モデル性能、長文脈対応能力、スケーリング解析、および学習・推論の効率性という多角的な視点から検証する。計算プリミティブの核心的な特徴に着目することで、各ハイブリダイゼーション戦略における最も重要な要素を特定し、それらに基づいて両方のハイブリッドモデルに対する最適な設計ガイドラインを提案する。本研究の包括的な分析は、ハイブリッド言語モデルの開発における実用的な指針と貴重な知見を提供し、アーキテクチャ構成の最適化を促進するものである。