HyperAI超神经
Back to Headlines

人工智能推理与训练双重挑战:金融服务机构如何破局?

7 天前

在金融服务业,生成式AI的推理(inference)正变得比训练更具挑战性。过去十年,传统机器学习模型虽训练成本高昂,但因规模小,推理相对简单。而如今,随着生成式AI模型不断膨胀,推理环节反而成为瓶颈——不仅需要适配多种硬件环境,还面临低延迟、高效率与成本控制的多重压力。 金融企业如投行、保险公司、商业银行等,正面临复杂的推理需求:既要将模型部署在手机、网点边缘设备上实现快速响应,又需在数据中心运行超大规模模型以处理复杂任务。这导致推理必须在CPU、GPU、FPGA乃至定制ASIC等多种计算架构上并行运行,存储系统也从“附属品”转变为关键基础设施。如今,高效的存储必须能缓存上下文、复用计算状态,以避免重复计算,显著降低推理成本。 以JPMorgan Chase为例,其2024年推出的IndexGPT工具基于GPT-4,通过关键词生成自动构建投资主题指数,已上线Bloomberg和Vida平台。尽管目前仍为静态索引,但未来有望实现动态更新,前提是推理成本大幅下降。而Bank of America的Erica自2018年上线以来,已处理超26亿次客户交互,虽未使用生成式AI,但依赖GPU加速的机器学习实现客户服务自动化。 Wells Fargo的Fargo智能助手则全面采用生成式AI,本地运行轻量级LLM进行语音转写,再通过云端调用Google Gemini Flash等多模型(包括OpenAI、Anthropic、Meta等)完成安全审查与响应生成。其用户互动量从2023年的2130万飙升至2024年的2.455亿,对推理性能与成本提出极高要求。 为应对这一挑战,NVIDIA推出GB300 NVL72等超大规模推理系统,采用72个Blackwell GPU,提供1.1 petaflops FP4推理算力。2025年即将推出的VR200 NVL144系统更将实现3.6 exaflops FP4算力,专为链式思维(chain of thought)等复杂推理设计,需依赖共享内存的机架级架构。 与此同时,存储系统正成为推理优化的核心。Vast Data等厂商通过持久内存与键值缓存,将上下文状态持久化,避免重复计算;Hammerspace则构建全局元数据系统,将GPU服务器本地闪存作为Tier 0分布式存储,实现数据智能调度,确保推理任务在正确时间获取正确数据。 金融服务业的实践表明:AI推理已不再是“训练后的附加环节”,而是决定系统成败的关键。未来,只有将计算、存储与数据调度深度融合,才能真正实现高效、可靠、可扩展的生成式AI落地。

Related Links