南大团队突破AI本地化部署瓶颈,支持国产显卡助力隐私安全
南京大学计算机学院研究员李猛团队近期在AI本地化部署领域取得关键突破,提出一种基于“专家替换”机制的系统方法,成功实现大模型在资源受限设备上的高效运行,尤其支持国产显卡,为解决AI隐私与安全问题提供新路径。 当前,主流AI应用多依赖云端处理,用户输入数据需上传至服务器,存在泄露风险。三星曾因员工将机密信息输入ChatGPT导致数据外泄,凸显云端AI的隐患。为保障隐私,将AI模型部署在本地成为趋势。然而,大模型对显存和内存需求高,手机等边缘设备难以承载。李猛团队发现,混合专家模型中“低分专家”可被有效替换,不显著影响精度。基于此,他们设计出新系统,使专家缓存命中率提升2倍以上,显存占用减少一半以上。 该技术让原本需两张显卡运行的任务,仅用一张即可完成,大幅降低硬件成本。在手机端,可使现有内存容量下运行更强大的AI模型,用户无需为更强AI功能而购买高内存手机,缓解了因硬件升级带来的价格压力。 研究中,团队与国产算力平台合作,克服了国产显卡显存不足的瓶颈。尽管算力达标,但显存有限,传统方法难以加载完整模型。团队通过动态加载机制,将非活跃模型层暂存于外部,仅保留当前计算所需部分在显存中,实现“按需调用”,有效突破显存限制。 该方案不修改模型架构,不牺牲精度,是系统级创新。其核心思想——“只替换低分专家”并结合多步预测优化,为业界首创。研究验证了在国产计算卡和英伟达平台均有效,推动了软硬件协同设计的实践。 李猛表示,这一成果不仅提升了国产硬件的可用性,更坚定了其对端侧智能发展的信心。他提出,未来应推动智能计算如水电般普惠,让百元级设备也能具备强大AI能力,真正实现“智能无处不在”。该技术有望在手机、个人电脑、小型服务器等场景广泛应用,为AI安全、隐私与普及化提供坚实支撑。
