Command Palette
Search for a command to run...
Intern-S1:科学用マルチモーダル基盤モデル
Intern-S1:科学用マルチモーダル基盤モデル
概要
近年、多数のオープンソース基盤モデルが登場し、広く注目される分野において顕著な進展を遂げ、閉鎖型モデルと比較してもその性能は非常に近い水準にまで達している。しかし、価値が高くながらもより困難な科学専門分野では、依然として専門家モデルに依存する状況が続き、汎用基盤モデルの進展は人気分野に比べて著しく遅れており、科学的研究の変革に十分な水準に達しておらず、オープンソースモデルと閉鎖型モデルとの間には依然として大きなギャップが存在している。このギャップを縮小し、人工一般知能(AGI)への一歩を踏み出すために、本研究では、複数の科学的データモダリティを分析する専門的な理解力と推論能力を備えた汎用型モデル「Intern-S1」を提案する。Intern-S1は、280億のアクティベートパラメータと2410億の合計パラメータを有するマルチモーダルMixture-of-Experts(MoE)モデルであり、5テラトークンに及ぶデータで継続的な事前学習が行われており、そのうち2.5テラトークン以上が科学分野からのデータである。後期学習段階では、InternBootCampにおいてオフラインおよびオンラインの強化学習(RL)を実施し、1000以上のタスクを同時に効果的に学習するため、我々は「Mixture-of-Rewards(MoR)」を提案した。アルゴリズム、データ、トレーニングシステムにおける統合的な革新を通じて、Intern-S1はオンライン強化学習訓練においてトップクラスの性能を達成した。包括的な評価ベンチマークにおいて、Intern-S1はオープンソースモデルの中でも汎用的推論タスクで競争力のある性能を示し、科学分野ではオープンソースモデルを大きく上回る成果を上げ、分子合成計画や反応条件予測、結晶の熱力学的安定性予測といった専門的タスクにおいて、閉鎖型モデルの最先端技術をも凌駕した。本モデルの詳細および利用方法は、https://huggingface.co/internlm/Intern-S1 にて公開されている。