Yi:01.AIによるオープン・ファウンデーション・モデル

我々は、多様な能力を備えた言語およびマルチモーダルモデルのシリーズであるYiモデルファミリーを紹介する。Yiモデルファミリーは、6Bおよび34Bパラメータの事前学習済み言語モデルを基盤とし、その後、対話モデル、最大20万トークンの長文文脈対応モデル、深さ拡張型モデル、視覚言語モデルへと拡張された。ベースモデルはMMLUをはじめとする多様なベンチマークで優れた性能を発揮しており、微調整済みの対話モデルはAlpacaEvalやChatbot Arenaといった主要な評価プラットフォームにおいても高い人間の好み評価率を達成している。当社のスケーラブルなスーパーコンピューティングインフラと古典的なTransformerアーキテクチャを基盤とし、Yiモデルの高性能は、データエンジニアリングによる高品質なデータの構築に起因すると考えている。事前学習のためには、段階的なデータ重複削除および品質フィルタリングパイプラインを用いて、英語および中国語のコーパス合計3.1兆トークンを構築した。微調整のためには、機械学習エンジニアが複数回にわたって直接検証を行うことで、10,000件未満の小規模なインストラクションデータセットを精緻に整備した。視覚言語モデルの構築では、対話用言語モデルと視覚変換器(Vision Transformer)エンコーダを統合し、視覚表現を言語モデルの意味空間に整合するように学習させた。さらに、軽量な継続的事前学習(lightweight continual pretraining)により、文脈長を20万トークンまで拡張し、needle-in-a-haystack(「麦わらの中の針」)型の検索性能も顕著に向上させた。また、継続的学習によって事前学習済みチェックポイントの深さを拡張することで、性能がさらなる向上を遂げることを示した。本研究の結果を踏まえ、徹底的に最適化されたデータを用いてモデルパラメータをさらにスケーリングし続けることにより、より強力な最先端モデルの実現が可能になると確信している。