70億パラメータで大規模モデルに迫る推論性能を実現——Falcon H1R 7Bがテスト時スケーリングで新たなパレート前線を切り開く
アブダビの技術イノベーション研究所(TII)が開発した大規模言語モデル「Falcon H1R 7B」が発表された。このモデルは、70億パラメータという比較的小規模ながら、数学、コード生成、エージェント作業、一般用途の複数のベンチマークで、7倍以上も大きなモデルと同等、あるいはそれ以上の性能を発揮する。特に、推論能力におけるパラメータ効率の高さが特徴で、性能と効率のバランスを新たな基準に押し上げた。 Falcon H1R 7Bの訓練は、データ駆動型の二段階パイプラインで構成されている。まず、教師あり微調整を行い、その後、強化学習によるスケーリングを実施。このプロセスにより、モデルは複雑な問題解決能力を獲得した。さらに、テスト時のスケーリング(TTS)において、独自の「DeepConf(Deep Think with Confidence)」技術を採用。この手法は、生成過程でモデル自身の信頼度スコアを用いて、不正確な推論経路を動的に削除する。これにより、計算リソースを効率的に活用しつつ、精度を大幅に向上。 数学分野では、AIME-24やHMMT-25などの難易度の高い問題でトップクラスの成績を収め、150億パラメータの競合モデルと比較しても劣らない。コードとエージェントタスクでは、LCB v6でトップ、SciCodeやTB Hardでも上位に位置し、80億パラメータ以下のモデルの中では最強のパフォーマンスを示した。一般用途のベンチマークでも、MMLU-ProやIFBenchで80億パラメータクラスのモデルを上回る結果を記録。特に、GPQA-DやHLEなどでは、より大きなモデルと同等の精度を実現。 推論効率面でも優位性を発揮。GPUあたりのトークン生成速度は、Qwen3 8Bをほぼ2倍上回り、バッチサイズが大きくなるほどその差が顕著になる。8,000トークン以上の長い入力に対しても、約1,800トークン/秒/GPUを達成。これは、ハイブリッドなTransformer–Mambaアーキテクチャがもたらすメモリ効率とスケーラビリティの高さによる。 Falcon H1R 7Bは、Falcon LLMライセンスでオープンソース公開され、研究や開発の現場で自由に利用可能。TIIは、AIの民主化とコミュニティ連携を重視し、今後の進化に向けたフィードバックを歓迎している。このモデルは、小規模ながらも高精度・高効率な推論を実現する新たな道を示す。
