HyperAIHyperAI

Command Palette

Search for a command to run...

LLaTiSA:迈向从视觉感知到语义的难度分层时间序列推理

Yueyang Ding HaoPeng Zhang Rui Dai Yi Wang Tianyu Zong Kaikui Liu Xiangxiang Chu

摘要

对时间序列的全面理解仍然是大语言模型(LLMs)面临的一项重大挑战。当前的研究受限于碎片化的任务定义以及具有固有歧义性的基准测试,这阻碍了严谨的评估工作以及统一的时间序列推理模型(Time Series Reasoning Models, TSRMs)的发展。为了填补这一空白,我们通过一个认知复杂度递增的四级分类法,对时间序列推理(Time Series Reasoning, TSR)进行了形式化定义。我们推出了 HiTSR,这是一个分层的时间序列推理数据集,包含 8.3 万个样本,涵盖了多样化的任务组合以及经过验证的思维链(Chain-of-Thought, CoT)轨迹。基于 HiTSR,我们提出了 LLaTiSA,这是一种强大的 TSRM,它将可视化模式与精度校准后的数值表格相结合,以增强视觉语言模型(Vision-Language Models, VLMs)的时间感知能力。通过多阶段课程微调策略,LLaTiSA 实现了卓越的性能,并在多种 TSR 任务和现实场景中展现出强大的分布外(out-of-distribution)泛化能力。我们的代码已开源至:https://github.com/RainingNovember/LLaTiSA

一句话总结

作者提出了 LLaTiSA,这是一种时间序列推理模型(Time Series Reasoning Model),通过将可视化模式与经过精度校准的数值表格相结合,增强了视觉语言模型(Vision-Language Models)的时间感知能力。通过利用包含 8.3 万个样本的分层 HiTSR 数据集进行多阶段课程微调策略,该模型在多种任务中实现了卓越的性能和强大的分布外(out-of-distribution)泛化能力。

核心贡献

  • 本文通过一个四级分类法建立了时间序列推理(TSR)的正规框架,根据认知复杂度的递增对任务进行分类。
  • 引入了一个名为 HiTSR 的分层数据集,包含 83,000 个样本,具有多样化的任务组合和经过验证的思维链(Chain-of-Thought)轨迹。
  • 研究展示了 LLaTiSA,这是一种时间序列推理模型,利用可视化模式和精度校准的数值表格来增强时间感知,并通过多阶段课程微调策略实现了卓越的性能和强大的分布外泛化能力。

引言

时间序列推理对于解释医疗诊断、金融和工业监测等关键领域中的时间动态至关重要。虽然大语言模型(LLMs)和视觉语言模型(VLMs)展现出了潜力,但当前的研究面临任务定义碎片化和基准测试不可靠的问题,这些基准测试往往缺乏数值精度或存在语义歧义。许多现有模型在基础任务(如基础数值落地)上表现挣扎,这削弱了执行复杂高层推理的能力。

作者通过为时间序列推理建立四级认知分类法,并引入 HiTSR(一个包含 8.3 万个具有验证推理链样本的分层数据集)来填补这些空白。利用该框架,开发了 LLaTiSA,这是一种基于 VLM 的推理模型,它将视觉图表与结构化数值表格相结合,以弥合定性感知与定量精度之间的差距。为了确保能力的稳健构建,作者采用了多阶段课程微调策略,使模型从基础数值读取逐步过渡到复杂的语义解释。

数据集

作者引入了 HiTSR,这是一个统一的数据集,旨在训练和评估跨越三个层级(L1 到 L3)的时间序列推理(TSR)能力。该数据集包含约 83,000 个样本,结构如下:

  • 数据集组成与子集

    • HiTSR-L1 (30,000 个样本): 专注于基础数值读取和定位任务。这些任务使用合成时间序列生成,以便以受控的方式提供大规模监督。
    • HiTSR-L2 (50,703 个样本): 针对模式感知,包括局部和全局模式区分。这些样本同样源自合成时间序列,以便对时间结构进行系统性操作。
    • HiTSR-L3 (3,121 个样本): 专注于高层语义理解。该子集从来自 UTSD、Monash 和 Time-MMD 等不同存储库的真实世界时间序列中筛选而成。
  • 数据处理与标注

    • 合成与增强: 对于 L3 任务,通过对真实世界时间序列进行随机裁剪来创建子序列,从而增加数据量和描述的多样性。
    • 问题构建: L1 任务使用基于规则的简答格式。L2 和 L3 任务被构建为多选题(MCQs),其中目标选项被设计为完整的自然语言陈述,以提高指令遵循能力。
    • CoT 生成: 实现了“从感知到推理”的流水线。对于 L2 和 L3,使用 GPT-5 生成具备数值意识的描述和思维链(CoT)轨迹。通过从其他序列采样或通过基于规则的扰动来设计干扰项,以确保其在逻辑上是截然不同的。
    • 多阶段验证: 为确保高保真度,采用了严格的验证流水线。L1 使用确定性脚本,L2 结合使用 GPT-5 交叉验证和人工审核(占样本池的 10%),L3 则经过 100% 的人工手动验证,以确保语义和数值的完整性。
  • 模型训练与使用

    • 课程学习: 利用 HiTSR 的分层级别实施三阶段课程微调策略,从 L1 逐步推进到 L3。
    • 推理增强: 不同于仅提供标签的传统基准测试,HiTSR 提供经过验证的 CoT 轨迹,使模型能够学习推理过程,而非简单的模式映射。

方法

基于已有的认知和视觉感知框架,作者利用四级分类法来构建时间序列推理(TSR)任务。该框架将 TSR 分解为不同的认知阶段:L1(数值读取)、L2(模式感知)、L3(语义推理)和 L4(预测推理)。每个级别对应递增的推理复杂度:L1 专注于基础数值检索,L2 专注于识别趋势和模式,L3 专注于在领域知识中进行模式上下文关联,L4 专注于预测未来状态。该层级结构参考了布鲁姆分类法(将低阶思维技能映射到 L1–L2,高阶技能映射到 L3–L4)以及 Bertin 的阅读层级(支持从基础数据元素分析到推断性推理的演进)。该框架提供了一种诊断工具,用于精准确定模型失败是源于感知局限还是推理缺陷。

如下图所示,HiTSR 数据集旨在评估模型在这些层级上的表现。数据集包括 HiTSR-L1(需要比较起始值和结束值或识别极小值)以及 HiTSR-L2(涉及识别局部和全局模式)等任务。对于 HiTSR-L3,任务转向将场景与时间序列数据进行匹配,例如识别心电图(ECG)信号。这种递进过程反映了不断增加的认知需求,每一层级都建立在前一层级的基础之上。

模型架构 LLaTiSA 设计用于通过双模态输入格式处理时间序列数据,整合视觉和数值信息。视觉组件由一系列图表组成,其中回顾上下文(lookback context)和候选预测分别以蓝色和红色渲染,从而实现对时间连续性的对比分析。与之互补的是数值表格,它为回顾窗口提供精确数值,确保细粒度的落地。这种双视图策略允许模型利用图表中的全局趋势直觉,同时保持数值精度。

训练过程采用了三阶段课程学习方法。第一阶段专注于 HiTSR-L1,强调数值读取任务。第二阶段针对 HiTSR-L2,涉及模式感知。第三阶段处理 HiTSR-L3,需要语义推理。这种阶段性推进确保模型能够循序渐进地构建能力,从基础感知开始,最终达到复杂的推理。基础模型通过该课程得到增强,最终形成 LLaTiSA 模型,该模型经过训练可以处理 HiTSR 数据集中全范围的难度级别。

实验

实验通过分布外基准测试和真实世界 ECG 解释任务,评估了 LLaTiSA 模型在四个层级的时间序列推理(L1–L4)中的表现。通过比较各种编码策略和训练范式,研究验证了结合双视图多模态方法与多阶段课程学习可以显著增强性能和泛化能力。结果表明,将视觉全局上下文与带索引的文本数值数据以及思维链(CoT)推理相结合,使模型能够有效地从基础数值定位过渡到复杂的语义理解和预测推理。

作者比较了各种模型在不同层级时间序列推理任务上的表现,包括数值读取、模式感知和语义推理。结果显示,LLaTiSA 在所有层级中始终优于其他模型,特别是在需要精确数值落地和复杂推理的任务中。视觉和文本模态与显式索引信息的结合显著提高了准确率和成功率。与其它模型相比,LLaTiSA 在所有任务和层级中均达到了最高性能。视觉、文本与索引信息的结合显著提升了数值落地和推理任务的表现。仅使用视觉或文本模态的模型准确率较低,尤其是在需要精确数值理解的任务中。

作者评估了 LLaTiSA 在 ECG 解释任务上的表现,并在分布内和分布外设置下将其与基准模型进行了比较。结果显示,LLaTiSA 在导联评估和诊断准确性方面表现卓越,特别是在分布外场景中,尽管是在显著较小的数据集上进行微调,其表现仍优于其他模型。在分布内和分布外设置下,LLaTiSA 的导联评估覆盖率和准确性均高于基准模型。LLaTiSA 在诊断准确性和基于证据的推理方面优于 GEM 和 Qwen3-VL-8B,尤其是在分布外场景中。与其它模型相比,LLaTiSA 使用显著更少的训练数据展示了强大的性能,表明具有极高的数据效率。

作者在不同数据集和任务上比较了各种时间序列推理模型,重点关注其在分布外设置下的表现。结果显示,所提出的模型始终优于基准模型,特别是在需要多层级推理和结构化分析的任务中。该模型展示了对真实世界应用(如 ECG 解释)的强大泛化能力,在准确性和特定导联分析方面有显著提升。所提出的模型在多种时间序列推理任务中实现了卓越性能,尤其是在分布外场景中。它在 ECG 解释等真实世界应用中显示出显著改进,证明了强大的泛化能力和数据效率。通过多阶段课程学习和双视图编码,模型的有效性得到了增强,从而提升了推理能力和任务遵循度。

实验评估了模型在三个层级的时间序列推理任务中的表现,从基础数值读取到复杂的语义理解。模型在数值落地和模式感知方面展示了强大的能力,在使用双视图编码策略和课程学习时观察到持续的改进。结果显示,该模型优于各种基准模型,特别是在需要精确数值定位和上下文推理的任务中。与基准方法相比,该模型在数值落地和模式感知任务中取得了显著改进。在所有任务层级中,双视图编码策略始终优于单模态方法。课程学习增强了性能,特别是在需要语义推理和泛化到真实世界应用的复杂任务上。

作者进行了消融实验,以评估课程学习对不同任务层级模型性能的影响。结果显示,顺序课程训练方法始终优于联合训练策略,模型在顺序训练时在所有层级上均达到了最高准确率。性能增益在分布外设置中尤为明显,表明结构化、分层训练对于实现稳健泛化至关重要。顺序课程训练在所有任务层级上均实现了比联合训练更高的准确率。当以从 L1 到 L3 的逐步方式进行训练时,模型表现最佳,尤其是在分布外场景中。性能提升在 OOD 设置中更为显著,突显了课程学习在泛化中的作用。

作者通过多层级时间序列推理任务、ECG 解释和消融实验对 LLaTiSA 进行了评估,以验证其推理能力和泛化能力。结果表明,与单模态基准相比,将视觉和文本模态与双视图编码及索引信息相结合,显著增强了数值落地和语义推理能力。此外,该模型表现出极高的数据效率和卓越的分布外性能,尤其是在采用顺序课程学习策略时。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供