HyperAIHyperAI

Command Palette

Search for a command to run...

AI音频模型将走向商品化?ElevenLabs CEO预测行业新趋势

AI语音公司ElevenLabs的联合创始人兼CEO马蒂·斯坦尼斯泽夫斯基(Mati Staniszewski)在TechCrunch Disrupt 2025大会上表示,AI语音模型未来将逐渐“商品化”。这一观点来自一家正致力于构建核心模型的公司,颇具深意。 斯坦尼斯泽夫斯基指出,尽管当前自研模型仍是技术领先的关键,但长期来看,AI语音模型的差异将不断缩小,最终趋于同质化。他预测,未来一两年内,这种趋势将更加明显。虽然不同语音、语言之间仍可能存在细微差别,但整体性能差距将越来越小。 当被问及为何公司仍要投入大量资源自研模型时,他解释称,目前自研模型仍是实现高质量语音输出的唯一途径。如果AI语音听起来不自然、不真实,问题就无法通过调用现成模型解决,必须靠自主研发来突破。他相信,随着技术发展,其他公司也会逐步掌握这一能力。 他还指出,尽管模型本身可能趋于标准化,但实际应用仍需针对不同场景选择不同模型。未来一两年,更多模型将转向多模态融合方向,例如同时生成音频与视频,或在对话场景中结合语音与大语言模型。他以谷歌的Veo 3为例,说明多模型协同带来的潜力。 ElevenLabs计划通过与外部公司合作、整合开源技术,将自身在语音生成方面的专长与其他模型能力结合,打造更强大的应用。公司目标不仅是构建模型,更在于推动优质应用场景的落地。 “就像苹果的成功源于软硬件的结合,我们认为,未来最佳应用的诞生,将来自产品与AI的深度融合。”斯坦尼斯泽夫斯基总结道。

相关链接