HyperAI超神経
Back to Headlines

金融機関が直面するAI推論の課題と次世代インフラの潮流

7日前

金融サービス業界(FSI)において、生成AI(GenAI)の推論(inference)は、モデルの訓練よりもさらに複雑で困難な課題となっている。かつては訓練が高コストだったが、推論は容易だった。しかし、現在の大規模言語モデルは膨大なメモリと計算資源を必要とし、スマートフォンや支店のエッジデバイスに搭載される場合もあれば、データセンターでの処理が必要な場合もある。低遅延を実現するには、推論の最適化とストレージの高度な管理が不可欠になり、ストレージは「後回し」では済まない。 JPMorgan Chaseの「IndexGPT」は、OpenAIのGPT-4を活用し、投資テーマに応じたキーワードを自動生成し、インターネットから関連情報を収集するツール。2024年7月にリリースされ、ブロードウェイやVidaプラットフォームを通じて顧客に提供。ただし、インデックスの構成は静的であり、動的更新は未実装。一方、Bank of Americaの「Erica」は2018年から運用され、2.6億回以上の顧客対応を実現。機械学習と自然言語処理を活用するが、大規模言語モデル(LLM)による生成は行っていない。一方、Wells Fargoの「Fargo」は2022年にリリースされ、モバイル端末で小さなLLMで音声をテキスト化、個人情報を自動除去し、Google Gemini Flashなどの外部LLMと連携。2023年には2130万件の対話、2024年には2.45億件に急増。推論負荷の増大に伴い、コスト削減が急務。 推論の高度化には、NVIDIAのGB300 NVL72(1.1ペタフロップFP4推論)や、将来のVR200 NVL144(3.6エクサフロップ)といったラックスケールシステムが登場。これらのシステムは、チェーン・オブ・シンキング(CoS)型の複雑な推論を可能にし、複数の小さなモデルを連携して問題を分解。しかし、こうしたインフラは電力制約のある都市部のデータセンターでは導入が難しい。 ストレージの役割も変化。キーバリューキャッシュやコンテキストウィンドウキャッシュが、GPUメモリの負荷を軽減。Vast DataやHammerspaceは、NFS over RDMAやグローバルファイルシステムにより、persistent memoryやTier 0ストレージを活用し、再計算を回避。推論コストはコンテキスト長の2乗に比例するため、ストレージの最適化が推論効率を左右する。 金融機関は、AIの信頼性とROIを確認しつつ、推論の最適化に注力。その経験は、今後のすべての業界にとって貴重な教訓となる。

Related Links