2 天前

语言引导微调:利用文本反馈增强数值优化

Yuxing Lu, Yucheng Hu, Nan Sun, Xukai Zhao
语言引导微调:利用文本反馈增强数值优化
摘要

配置优化仍是机器学习中的关键瓶颈,需要在模型架构、训练策略、特征工程和超参数等多个维度之间进行协同调优。传统方法通常将这些维度独立处理,缺乏可解释性;而近年来的自动化方法则在动态适应性和对优化决策的语义推理方面存在不足。我们提出了语言引导调优(Language-Guided Tuning, LGT)这一新框架,该框架利用多智能体大语言模型,通过自然语言推理实现配置的智能优化。LGT引入了文本梯度(textual gradients)——一种定性反馈信号,可补充数值优化,提供对训练动态及配置之间依赖关系的语义理解。LGT协调三个专业化智能体:顾问(Advisor)负责提出配置调整建议,评估者(Evaluator)用于衡量优化进展,优化器(Optimizer)则不断精炼决策过程,从而构建一个持续自我改进的反馈循环。在六个不同数据集上的全面评估表明,LGT显著优于传统优化方法,在提升模型性能的同时,保持了高度的可解释性。