HyperAI超神经

RouteNator:一种基于路由器的多模态架构,用于为函数调用 LLM 生成合成训练数据

Vibha Belavadi, Tushar Vatsa, Dewang Sultania, Suhas Suresha, Ishita Verma, Cheng Chen, Tracy Holloway King, Michael Friedrich
发布日期: 5/21/2025
RouteNator:一种基于路由器的多模态架构,用于为函数调用 LLM 生成合成训练数据
摘要

本文探讨了在缺乏真实用户交互数据的情况下,如何针对函数调用任务对大型语言模型 (LLM) 进行微调。在数字内容创作工具中,用户通过自然语言查询表达需求,而这些查询必须映射到 API 调用。由于缺乏真实任务专用数据以及对其进行训练的隐私限制,因此需要生成合成数据。现有的合成数据生成方法在多样性和复杂性方面存在不足,无法复制真实数据分布,导致 LLM 微调后性能不佳。我们提出了一种基于路由器的新型架构,该架构利用内容元数据和结构化知识图谱等领域资源,以及文本到文本和视觉到文本的语言模型来生成高质量的合成训练数据。我们架构灵活的路由机制能够生成与观察到的真实世界分布相匹配的合成数据,从而解决了传统方法的一个根本性局限性。对一组全面的真实用户查询的评估表明,函数分类准确率和 API 参数选择均有显著提升。使用我们的合成数据进行微调的模型始终优于传统方法,为函数调用任务树立了新的标杆。