微软发布三款新基础模型迎战 AI 巨头
微软人工智能部门于周四宣布发布三款全新的基础模型,旨在通过构建自有全模态模型栈,在竞争激烈的 AI 市场中挑战 OpenAI 及谷歌等竞争对手。此次发布的模型包括文本与语音转录模型 MAI-Transcribe-1、语音生成模型 MAI-Voice-1 以及视频生成模型 MAI-Image-2。这些模型现已在微软 Foundry 平台上线,其中转录与语音模型同时可在测试平台 MAI Playground 使用。 MAI-Transcribe-1 支持 25 种语言互转,转录速度比微软原有服务快 2.5 倍;MAI-Voice-1 具备极高效率,仅需 1 秒即可生成 60 秒音频,并支持定制用户专属声音;MAI-Image-2 则专注于视频生成,此前已于 3 月 19 日在测试平台亮相。这些模型由微软 AI 超级智能团队开发,该团队由微软 AI 首席执行官穆斯塔法·苏莱曼领导,于 2025 年 11 月正式成立。苏莱曼强调,团队致力于开发“人本 AI",注重实际沟通场景与实用价值。 在定价策略上,微软明确表示新模型将比谷歌和 OpenAI 的同类服务更具价格优势。MAI-Transcribe-1 起价为每小时 0.36 美元,MAI-Voice-1 为每 100 万字符 22 美元,MAI-Image-2 则分别以每 100 万令牌 5 美元和 33 美元的价格提供文本输入与图像输出服务。尽管微软积极拓展自有技术,苏莱曼重申公司将继续履行与 OpenAI 的长期合作伙伴关系,该合作已投入超过 130 亿美元。微软目前采取双轨战略,既自主研发 AI 芯片与模型,也采购外部硬件,以巩固其在人工智能领域的综合实力。
