2ヶ月前

教科書だけが必要II: phi-1.5技術報告書

Yuanzhi Li; Sébastien Bubeck; Ronen Eldan; Allie Del Giorno; Suriya Gunasekar; Yin Tat Lee
教科書だけが必要II: phi-1.5技術報告書
要約

私たちは、\textbf{TinyStories}(1000万パラメータで一貫性のある英語を生成できるモデル)と、その後の\textbf{phi-1}(13億パラメータでPythonコーディング性能が最先端に近いモデル)の研究を引き継ぎ、小さなTransformerベースの言語モデルの能力について調査を続けます。後者の研究では、従来のウェブデータよりも学習過程を向上させるために、既存の大規模言語モデル(LLMs)を使用して「教科書品質」のデータを生成することを提案しました。私たちは「教科書だけが必要」というアプローチに従い、今回は自然言語における常識的な推論に焦点を当て、新しい13億パラメータのモデル\textbf{phi-1.5}を作成しました。このモデルは、自然言語タスクでの性能が5倍大きなモデルと同等であり、小学校レベルの数学や基本的なコーディングなどのより複雑な推論タスクにおいてはほとんどの非最先端の大規模言語モデル(LLMs)を上回っています。\textbf{phi-1.5}は一般的に、非常に大きなLLMsと同じ多くの特性を持っています。良い点としては、「ステップバイステップで思考する」能力や一部の文脈内学習を行う能力があり、悪い点としては幻覚現象や有害かつ偏った生成物が出力される可能性があります。しかし、ウェブデータが含まれていないことによりこれらの問題に対する改善が見られました。私たちは\textbf{phi-1.5}を開源し、これらの緊急課題に関するさらなる研究を促進します。

教科書だけが必要II: phi-1.5技術報告書 | 最新論文 | HyperAI超神経