Back to Headlines

AIの「メモリ壁」が課題に WEKACEOが指摘する推論時代のインフラ根本的課題

7日前

人工知能の発展に伴い、計算資源のコストは注目を集めているが、WEKAのCEOであるリラン・ツヴィベル氏は、実は「メモリの壁」と呼ばれる隠れた制約がAIの実用化を妨げていると指摘している。現在のAIモデル、特にMetaのLlamaのような大規模モデルは、1回の実行で約500GBのデータを処理する必要があり、推論(ユーザーに応答する段階)におけるメモリ不足が深刻な問題となっている。ツヴィベル氏は、The Informationの編集長アミール・エフラティとの対談で、「推論は計算ではなく、メモリに依存する」と明言。最新のGPUであっても数百GBの高速メモリしか搭載できず、10万トークンの文脈処理(50GB相当)が容易にメモリを圧迫するという。 その結果、ChatGPTのようなサービスで見られる遅延やリクエスト制限が発生。ツヴィベル氏は「GPUの性能は無駄に使われており、ユーザーへのサービス品質も低下している」と批判。推論は訓練と異なり、収益と直結するため、経済性が必須となる。現在、OpenAIの収益の約60%が推論に使われているという報告もある。 さらに、AIエージェントの進化により、より長い文脈理解や複雑な推論が求められ、メモリ需要はさらに増大する。ツヴィベル氏は「エージェントの爆発的拡大前に、この問題を抑える必要がある」と警鐘を鳴らす。効率化の鍵はメモリ管理にあるとし、DeepSeekやCohereといった企業がキーバリューのキャッシュやプリフィルの非統合化で効率化を実現している例を紹介。特にCohereはGPUサーバーの準備時間を15分から数秒に短縮し、最初のトークン出力までの時間を半減、同時処理数を4〜5倍に増加させた。 ツヴィベル氏は、最新GPUは訓練に、旧型GPUは推論に活用されるべきだと提言。推論の重い部分(プリフィル)は高性能GPUで、軽い部分(デコード)は旧型で処理する「分散型インフラ」の構築が鍵となる。AIの持続可能性には、推論の経済性が不可欠。彼は「訓練は成果で勝負するが、推論は経済で勝負する」と結論づけ、AIの未来は「効率的なメモリ管理」にかかっていると強調している。

Related Links