Command Palette
Search for a command to run...
Falcon-H1:効率性と性能を再定義するハイブリッドヘッド言語モデルの家族
Falcon-H1:効率性と性能を再定義するハイブリッドヘッド言語モデルの家族
概要
本報告では、多様な用途にわたり高い性能と効率を両立させるよう最適化されたハイブリッドアーキテクチャを特徴とする、新たな大規模言語モデル(LLM)シリーズ「Falcon-H1」を紹介する。従来のFalconモデルが単一のTransformerまたはMambaアーキテクチャに依拠していたのに対し、Falcon-H1は、Transformerベースのアテンションと、長文脈記憶性能と計算効率に優れることで知られる状態空間モデル(SSM)を並列的に統合するハイブリッドアプローチを採用している。本研究では、モデル設計、データ戦略、学習ダイナミクスの観点から、分野内の従来の慣習を再検討し、体系的なアプローチを実施した。Falcon-H1は、0.5B、1.5B、1.5B-Deep、3B、7B、および34Bパラメータを持つベースモデルおよびインストラクションチューニング済みバージョンを含む、複数の構成で公開されている。さらに、量子化済みのインストラクションチューニングモデルも提供されており、Hugging Face Hub上では合計30以上のチェックポイントが利用可能である。Falcon-H1モデルは、最先端の性能と優れたパラメータおよび学習効率を実現している。主力モデルであるFalcon-H1-34Bは、Qwen3-32B、Qwen2.5-72B、Llama3.3-70Bなど70B規模のモデルと同等またはそれ以上の性能を発揮しつつ、少ないパラメータ数と少ないデータ量で実現している。小規模モデルについても同様の傾向が見られ、Falcon-H1-1.5B-Deepは現在の7B~10B規模のトップモデルと同等の性能を示し、Falcon-H1-0.5Bは2024年時点で一般的に見られる7B規模のモデルと同等の性能を達成している。これらのモデルは、推論能力、数学的処理、多言語タスク、インストラクションの遵守、科学知識の活用など、幅広い分野で優れた性能を発揮する。最大256Kのコンテキストトークンをサポートし、18言語に対応しており、多様な応用に適している。すべてのモデルは、柔軟なオープンソースライセンスのもとで公開されており、アクセスしやすく、社会的インパクトを持つAI研究への継続的なコミットメントを示している。