HyperAI超神经

预训练大型语言模型在上下文中学习隐马尔可夫模型

Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
发布日期: 6/10/2025
预训练大型语言模型在上下文中学习隐马尔可夫模型
摘要

隐马尔可夫模型(HMMs)是用于建模具有潜在马尔可夫结构的序列数据的基础工具,然而将其拟合到实际数据中仍然面临计算上的挑战。在这项研究中,我们展示了预训练的大规模语言模型(LLMs)可以通过上下文学习(ICL)有效地建模由HMMs生成的数据——即它们从提示中的示例推断模式的能力。在多种合成的HMMs上,LLMs达到了接近理论最优的预测精度。我们揭示了受HMM属性影响的新颖缩放趋势,并为这些实证观察提供了理论假设。此外,我们还为科学家们提供了实用指南,介绍如何将ICL作为复杂数据的诊断工具。在实际的动物决策任务中,ICL的表现与人类专家设计的模型相当。据我们所知,这是首次证明ICL可以学习并预测由HMMs生成的序列——这一进展加深了我们对大规模语言模型中上下文学习的理解,并确立了其作为揭示复杂科学数据中隐藏结构的强大工具的潜力。