摘要

基础模型（Foundation Models, FMs）已展现出前所未有的能力，包括零样本学习、高保真数据生成以及跨领域泛化。然而，正如本文所揭示，当面对专家级任务（例如：通过自然语言查询检索汽车手册中的技术图示）时，FMs 的即用性能仍较差。这类任务所依赖的数据要么在预训练阶段完全未见过，要么属于大规模预训练数据分布中的长尾部分。这一现象凸显了有必要在这些专家级任务上对基础模型进行显式评估与微调，而这些任务恰恰在现实世界应用中最为常见。本文提出首个面向该领域的基准测试——FETA（Foundation Models for Technical Documentation Assessment），其核心任务是训练基础模型理解技术文档，具体表现为学习将文档中的图形图示与对应的文本描述进行匹配。FETA 基准聚焦于公开汽车手册及销售目录宣传册中的文本到图像与图像到文本检索任务。该基准配备了一套完全自动化的标注提取流程（代码将在论文被接受后公开发布），为未来扩展至更多类型的文档和应用领域提供了便利。我们提出的自动化标注方法生成的性能指标，经验证与人工标注计算出的指标具有高度一致性（人工标注数据亦将一并公开）。本文还提供了多个基线模型，并对多种主流基础模型在 FETA 上的表现进行了深入分析，得出了若干具有重要价值的发现。这些成果有望为基础模型研究社区提供关键参考，推动基础模型在当前主流基准测试所忽视的、面向实际专家任务的真实应用场景中的落地与应用。

源 PDF 查看代码