Galactica: 科学のための大規模言語モデル

情報過多は科学の進歩にとって大きな障壁となっています。科学文献やデータの爆発的な増加により、大量の情報から有用な洞察を見出すことがますます難しくなっています。現在、科学的知識は検索エンジンを通じてアクセスされますが、それらだけでは科学的知識を整理することはできません。本論文では、Galactica(ガラクティカ)という大規模言語モデルを紹介します。このモデルは、科学的知識を保存し、組み合わせ、推論することができます。私たちは多数の論文、参考資料、知識ベースなど多くの情報源からなる大規模な科学コーパスで学習を行いました。その結果、既存のモデルを一連の科学的タスクにおいて上回りました。LaTeX方程式などの技術的な知識探査において、Galacticaは最新のGPT-3に対して68.2%対49.0%と優れた性能を示しました。また、数学的なMMLU(Mathematical Multi-Task Language Understanding)においてChinchillaを41.3%対35.7%で上回り、MATHにおけるPaLM 540Bとの比較でも20.4%対8.8%と高いスコアを記録しました。さらに、PubMedQAやMedMCQA devなどの下流タスクにおいても新しい最先端の成績を達成し、それぞれ77.6%と52.9%の精度を示しました。一般コーパスでの学習を行っていないにもかかわらず、GalacticaはBIG-benchにおいてBLOOMやOPT-175Bよりも優れた性能を発揮しています。これらの結果は、言語モデルが新たな科学インターフェースとしての可能性を示していると考えています。科学コミュニティのためにモデルをオープンソース化することにしました。以上が翻訳となります。ご確認ください。