HyperAI超神经

Google近日发布了一款名为LMEval的全新开源框架，旨在简化不同公司的大型语言和多模态模型的比较过程。LMEval提供了一个统一的标准，使得研究人员和开发者可以轻松地评估各类AI模型，如OpenAI的GPT-4、Anthropic的Claude 3.7 Sonnet、Google自身的Gemini 2.0 Flash以及Meta的Llama-3.1-405B等。在AI领域，不同的公司在开发新模型时通常使用各自的API、数据格式和基准测试设置，这导致直接比较这些模型变得困难且耗时。LMEval通过标准化评测流程解决了这一问题。一旦配置好基准，即可在任何支持的模型上运行，而无需考虑其来源。LMEval不仅支持文本评测，还兼容图像和代码评测，并能够处理从简单的选择题到自由形式的文本生成等一系列评估类型。 LMEval具备识别“规避策略”的功能，即检测模型是否故意给出含糊答案以避免产生潜在风险或令人不安的内容。为了确保评测数据的安全和隐私，所有测试结果都存储在一个自加密的SQLite数据库中，既便于本地访问又避免了被搜索引擎抓取的风险。Giskard的安全评分显示不同AI模型在规避有害内容方面的能力，得分越高，安全性越高。该框架基于LiteLLM构建，可消除不同供应商之间API的差异，这意味着在同一平台上进行跨多个平台的相同测试时不再需要重写代码。此外，LMEval还支持增量评估，当加入新模型或问题时，系统只需重新执行必要的测试，而非全部重测，从而节约时间和计算成本。LMEval的多线程引擎还能够在并行计算中提升评估速度。谷歌提供了一个名为LMEvalboard的可视化工具，方便用户分析评估结果。通过这个仪表板，用户可以生成雷达图来直观地展示模型在不同类别的表现，同时也能深入挖掘特定模型的具体性能。LMEvalboard还支持模型与模型之间的直接对比，包括某些问题上的侧重点和答案差异的图形展示，使研究人员更容易找到需要改进的地方。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

谷歌推出LMEval：简化大型语言与多模态模型评估的新开源框架

相关链接

Command Palette

谷歌推出LMEval：简化大型语言与多模态模型评估的新开源框架

相关链接

Command Palette

谷歌推出LMEval：简化大型语言与多模态模型评估的新开源框架

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟