Grass 与 Inference 联手发布新一代视频标注模型,性能超越 Claude 4
Grass与Inference.net联合发布全新视频标注模型ClipTagger-12b,该模型在多项指标上超越Claude 4和GPT-4.1,以更低成本实现高精度视频内容识别,现已通过API开放使用。 ClipTagger-12b专为精准识别视频中的动作、物体和品牌标识而设计,适用于自动驾驶、仓储机器人等多个领域,显著提升AI系统对现实世界环境的感知能力。在基准测试中,其在ROUGE和BLEU等标注任务指标上表现优于主流模型,同时运行成本低至同类模型的1/17。 该模型由Grass提供的全球最大真实世界视频数据集之一(超过10亿条公开网络视频)训练而成,由Inference.net在其分布式计算网络上完成训练与部署。Grass通过一款可下载的应用程序,让用户共享闲置带宽,构建起一个用于AI训练数据采集的全球分布式网络。 Inference.net首席执行官Sam Hogan表示:“通过优质数据与工程优化,完全有可能训练出低成本且达到顶尖水平的模型。”Grass联合创始人Andrej Radonjic也强调:“AI的未来取决于保持网络开放,并构建能将互联网内容转化为可学习数据的基础设施,这正是我们迈出的一步。” 此次合作展示了专业团队如何突破传统大型AI实验室的壁垒,将高性能视频标注能力 democratize(普惠化),让更广泛的开发者和企业得以使用。 ClipTagger-12b目前已在Inference.net平台上线,开发者可通过API调用。模型权重及相关资源也已开放至Hugging Face。研究者可申请最高1万美元的计算资源补贴,详情见inference.net/grants。 Grass致力于通过共享闲置网络资源,推动真实世界数据的可持续采集。Inference.net则提供去中心化的AI推理基础设施,帮助开发者摆脱对传统云服务的依赖,实现高效、低成本的模型部署。