AIモデルの効率化:ディープシークが蒸留技術で大手企業と対抗する
中国のAI企業DeepSeekが今年初めにリリースしたチャットボットR1は、巨大な注目を集めました。その焦点は、比較的小さく知名度の低い企業が、世界最大のAI企業のモデルと同等の性能を、数分の一のコンピュータパワーとコストで達成したという点でした。これにより、西のテクノロジー企業の株価は急落し、Nvidiaの株式価値は歴史上最大の1日下げを記録しました。しかし、DeepSeekがOpenAIのo1モデルから知識を「蒸留」して得たという疑惑が浮上し、その可能性はAI業界に大きな衝撃を与えたと報じられました。 蒸留、または知識蒸留は、AI研究の中で10年以上前から使用されている一般的な手法です。2015年、GoogleのGeoffrey Hintonなど3人の研究者が、多数のモデルを組み合わせて性能を向上させることの難しさに着目し、この概念を提案しました。彼らは、誤った答えに対して同等のペナルティが課される現状に対して、大型の「教師」モデルから、より細かい確率情報を取得することで、小型の「生徒」モデルが効率的に学習できると仮定しました。Hintonはこの情報を「ダークナレッジ」と呼び、宇宙のダークマターに例えました。 初期の研究では、柔軟な目標(各可能性に対する確率)を使用することによって、大型モデルが小型モデルに情報を効果的に移転できることが示されました。これにより、精度をほとんど落とすことなく、より小さなモデルを作成できるようになりました。蒸留のアイデアは当初、学術会議で受け付けられませんでしたが、大量の訓練データを使い効率を上げる必要性が高まったことで、徐々に注目され始めました。 2018年、Googleは言語モデルBERTを発表し、多くのウェブ検索を解析するために使用しましたが、その規模とコストが問題となりました。翌年、DistilBERTという名前の小型版が開発され、ビジネスと研究の両方で広く利用されるようになりました。現在、蒸留は大手テクノولوجジー企業を中心に一般化しており、元々の論文はarxiv.orgプリントサーバー上で25,000回以上引用されています。 今年1月、カリフォルニア大学バークレー校のNovaSkyラボは、蒸留が複雑な質問に対する多段階の思考モデルの訓練にも有効であることを示しました。彼らの完全オープンソースのSky-T1モデルは、わずか450ドル以下のコストで訓練され、大きなオープンソースモデルと同等の結果を出すことに成功しました。チームの学生リードで同大の博士課程学生Dacheng Liは、「蒸留がこの設定で非常にうまく機能したことには、真正に驚きました」と述べ、「蒸留はAIにおける基礎的な手法だ」と述べています。 業界関係者は、蒸留がAI業界の重要な道具であると認識しており、小型化とコスト削減の両面で進歩を続けることが期待されます。DeepSeekの動きは、蒸留の可能性を再評価する機会となったとも言えるでしょう。 DeepSeekは、革新的な手法の適用により、AI開発における競争環境の変化を示した新しいプレイヤーとして注目されています。