HyperAI超神経
Back to Headlines

百度、ERNIE 4.5シリーズをオープンソース化:最大424Bパラメータの言語モデル群が登場

15日前

Baidu、ERNIE 4.5シリーズをオープンソース化:パラメータ数0.3億から424億にスケール Baiduは、最新のERNIE 4.5シリーズを正式にオープンソース化しました。このシリーズは、言語理解、推論、生成を強化するために設計された基礎モデルのファミリーで、パラメータ数が0.3億から424億までさまざまなサイズのモデルを提供します。これらはHugging Faceを通じて世界中の研究者や開発者に公開され、最先端の中英多言語処理テクノロジーへのアクセスと試験が可能になりました。 ERNIE 4.5のアーキテクチャ概要 ERNIE 4.5シリーズは、Baiduの過去のERNIEモデルの機能を引き継ぎ、新しい進化的設計を導入しています。特にMixture-of-Experts(MoE)アーキテクチャは、効率的にパラメータ数を拡張できます。たとえば、ERNIE 4.5-MoE-3BとERNIE 4.5-MoE-47Bは、各入力トークンに対して64つのエキスパートのうち2つだけをアクティブにします。これにより、モデルの表現力と汎化能力を保ちつつ、アクティブなパラメータ数を管理可能にしました。 訓練方法 ERNIE 4.5は、監視付き微調整(SFT)、人間からのフィードバックを利用した強化学習(RLHF)、およびコントラスティブアライメント技術を組み合わせて訓練されています。訓練用データセットは中国語と英語の多様な分野から5.6兆トークンに及んでおり、Baidu固有のマルチステージプリトレーニングパイプラインを使用して生成されました。これにより、指示に忠実に従う能力、複数回転会話、長文生成、推論ベンチマークでの高い性能が達成されています。 モデルバリエーションとオープンソース化 ERNIE 4.45には以下の10種類のモデルが含まれています: - MoE-47B:推論時に3億パラメータをアクティブ化し、全47億パラメータを持つモデル。 - 424B:最大規模の424億パラメータを持ち、スパース化アクティベーション戦略によって推論が可能且つスケーラブルに実現。 これらのモデルはFP16とINT8の量子化をサポートしており、効率的なデプロイメントが可能です。 性能評価 ERNIE 4.5モデルは、中英多言語処理NLPタスクにおける性能に著しい改善を示しています。特に指示追随タスクでは、コントラスティブファインチューニングによってユーザー意思の適合率が向上し、以前のバージョンよりも虚偽情報生成率が低減しました。 応用とデプロイメント ERNIE 4.5モデルは、幅広い応用シーンに対応可能となっています。最大128Kのコンテキスト長をサポートしているバリエーションがあることで、長いドキュメントやセッションに跨るメモリと推理を必要とするタスクにも活用できます。 結論 ERNIE 4.5シリーズは、オープンソースAI開発における重要な進歩を示しており、スケーラブルかつ言語対応型のタスク向けに最適化された多様なモデルを提供しています。Baiduが軽量な0.3億パラメータモデルから最大424億パラメータの大きなMoEモデルまで公開することは、包括的かつ透明性のあるAI研究へのコミットメントの表れです。詳細なドキュメンテーション、Hugging Faceでの公開、効率的なデプロイメントサポートにより、ERNIE 4.5はグローバルな自然言語処理技術の進展を加速すると期待されます。 参考文献 論文やモデルの詳細はHugging Faceで確認できます。すべての功績はプロジェクトの研究者たちに帰属します。また、当サイトのTwitterをフォローしたり、10万人以上が参加するMLredditにもぜひ参加してください。ニュースレター登録もおすすめです。

Related Links