Command Palette
Search for a command to run...
数据记者 Agent:将数据转化为可验证的多模态故事
数据记者 Agent:将数据转化为可验证的多模态故事
Kevin Qinghong Lin Batu EI Yuhong Shi Pan Lu Philip Torr James Zou
摘要
数据讲述着塑造社会的故事;数据记者的职责是将原始信息转化为非专业人士也能信赖的故事。一篇高质量的特稿通常需要新闻编辑室团队耗费数周时间:挖掘背景信息、进行统计分析、确定报道角度以及设计视觉呈现。近期的 agents 能够很好地处理各个独立环节:数据科学 agents 可完成分析闭环,而设计 agents 则能生成精美的网站。但是,一个 agent 能否从头到尾地担任数据记者的角色?我们提出 Data Journalist Agent(Data2Story),这是一种多 agent 框架,旨在将专业角色统筹至一个统一的虚拟新闻编辑室中。Data2Story 实现了两项创新。(i)主张具备证据支撑:Inspector 模块将每一项数据、报道角度及相关素材均追溯至原始数据、代码或外部参考文献。(ii)文章采用多模态生成方式:Data2Story 不局限于默认的纯文本与静态图表,而是推理读者期望的呈现形式,随后调用多模态工具,例如用于地理信息的交互式地图和用于音乐内容的音频。我们基于18篇文章对 Data2Story 进行评估,每篇文章均与最初发表的专业报道进行配对,并从四个维度展开:(a)human-agent 角度覆盖度;(b)由53名参与者参与的五维度量规评估;(c)computer-use agents 作为裁判,作为一种节省成本的代理指标,用于模拟读者浏览交互式文章的路径;(d)可验证性,即通过代码验证器根据原始数据重新执行相关陈述,并依据参考文献核查各项主张。Data2Story 能够生成具备竞争力且证据可追溯的多媒体报道,在透明度与可审计性方面表现尤为突出。人类撰写的报道在编辑视角、创意设计以及呈现方式上仍保持一定优势。我们将 Data2Story 定位为记者的协作伙伴,旨在助力实现更具证据支撑、透明度更高且可验证的报道工作。相关代码与演示项目已开源,访问地址为 https://data2story.github.io。
一句话总结
Data2Story 是一个多 Agent 框架,它将专业角色整合到一个虚拟新闻编辑室中,以生成端到端的数据新闻。该框架包含一个 Inspector 模块,用于支持基于证据的主张生成和面向受众的多模态内容创作。在对 18 篇文章的评估中(涵盖人机视角覆盖、53 人参与的量规研究、Computer-use Agent 导航及自动化主张验证),该系统产出了具有竞争力且透明的叙事内容,最终作为人类报道的可验证补充工具发挥作用。
核心贡献
- Data2Story 是一个多 Agent 框架,通过编排专业角色,能够从原始数据自动生成完整的多媒体新闻文章。Inspector Agent 明确将所有数值主张、视觉资产和叙事角度链接到可验证的来源,包括原始数据集、可执行代码或外部 URL。
- Designer Agent 通过推理受众偏好,动态生成特定主题的多媒体元素,例如交互式地图和可交互模拟程序。这种多模态生成能力确保了最终输出既符合数据主题,又契合目标读者群体。
- 该框架在 18 篇多样化文章上进行了评估,并与专家撰写的同类文章进行对比。评估采用人类量规评分、Computer-use Agent 导航代理以及自动化代码验证。该系统产出了具有竞争力、可追溯证据的故事,在透明度和主张级可审计性方面表现优异,而人类记者则在编辑视角和创意设计方面保持优势。
方法
作者提出了一种名为 Virtual Newsroom 的多 Agent 框架,该框架实现了数据新闻端到端流程的自动化。如下方概览图所示,该系统通过智能 Agent 流水线将原始数据转化为富含多模态元素的叙事故事。
框架的详细架构展示在下方的结构图中。该流水线包含多个专业化的 Agent 角色。流程始于原始数据集 D,由 Detective Agent 进行处理。Detective Agent 通过网页搜索获取外部上下文来增强原始数据,从而构建增强语料库 D∪D。随后,Analyst Agent 编写 Python 代码对增强后的数据进行统计分析,生成结果集 R 和对应的脚本 C。Editor Agent 接着审查这些发现以制定编辑计划和文本大纲,最终产出一组分析结论 F。
Designer Agent 创建图像、视频或交互式组件等多媒体资产 V,以补充叙事内容。Programmer Agent 随后将这些素材整合为最终的 HTML 页面 U。若 Auditor Agent 检测到渲染页面存在视觉或结构缺陷,将提供修订建议 S,Programmer Agent 据此优化输出内容。
为确保生成内容的可验证性,系统采用了 Inspector 模块。如下方图示所示,Inspector 将最终文章的每一个元素与其支撑证据进行绑定。它从上游 Agent 聚合原子级别的证据单元,包括上下文项 D、结果 R、代码 C、结论 F 以及视觉规范 V。Inspector 将最终 HTML 页面分解为多个片段,并将每个片段链接到支撑该片段的具体代码行或外部引用。这构建了一条可追溯的证据链,使读者能够通过点击链接验证原始数据、代码或资料来源,从而核实各项主张。
实验
该评估利用人类读者、Computer-use Agent 代理以及自动化溯源验证器,将 Data2Story 生成的多媒体文章与来自不同出版机构的真人撰写参考文章进行对比,以评估叙事质量、对齐程度及可追溯性。结果表明,该系统能够稳定捕捉直白的分析视角,并在透明度和主张与数据对齐方面持续优于人类基线,尽管在完全复现高度创意化的编辑叙事方面仍存在挑战。Agent-as-judge 协议以极低的成本成功模拟了人类偏好,而内置的 Inspector 模块被证明对建立机器可审计的证据链至关重要。最终,Data2Story 证明自动化 Agent 能够通过生成符合专业标准、可验证且富含多媒体的叙事内容,有效弥合数据分析与数据新闻之间的鸿沟。
评估结果表明,在所有测试类别中,Agent 生成的文章(尤其是使用 Inspector 功能的文章)平均得分均持续高于人类撰写的同类文章。相较于未包含该组件的 Agent 输出,引入 Inspector 组件带来了显著的性能提升。在 TidyTuesday 类别中观察到的优势最为明显,而 Pudding 类别中 Agent 与人类基线的性能差距最小。Agent 生成的文章在所有评估类别中均稳定优于人类文章。加入 Inspector 功能后,性能相较于无此功能的版本有显著提升。性能差距在 TidyTuesday 文章中最宽,而 Pudding 文章的结果则更接近人类基线。
评估结果证明,所提出的 Agent 在所有评估的量规维度上均优于人类撰写的文章,其中在透明度和主张对齐方面的提升最为显著。尽管该 Agent 在分析类体裁中展现出明显优势,但在高度设计感的编辑风格中,其表现与人类基线相当。总体而言,人类评审员对 Agent 生成的输出表现出强烈偏好。该 Agent 在全部五个量规维度上的平均分均高于人类作者,尤其在透明度和主张对齐方面表现突出。相较于高度策划的编辑类文章(两者结果相近),经济学和社区数据集等分析类来源的性能差距更大。在成对比较中,绝大多数评审员偏好 Agent 生成的文章,这与定量量规评分结果一致。
人工评估结果证实,Agent 生成的文章在所有评估的质量维度上均优于人类撰写的同类文章。最显著的优势体现在透明度和主张与数据对齐方面,而视觉设计方面的差距最小。按出版风格细分,该 Agent 在分析类和社区驱动类来源中保持明显领先,但在高度策划的长篇编辑类文章中与人类表现持平。总体而言,多数评审员偏好 Agent 的作品,这与各维度评分趋势一致。该 Agent 在每一项量规维度上均超越人类作者,其中透明度优势最大。性能因来源类型而异,在分析类格式中表现优异,但在高度设计感的编辑类文章中与人类持平。整体读者偏好强烈倾向 Agent,这与分维度评估结果相符。
本研究对比了 AI Agent 与人类数据记者的文本构成与主张覆盖情况。结果表明,该 Agent 采用更细致的写作风格,使用了更高比例的短句。在内容对齐方面,Agent 有效捕捉了人类文章中提出的多数主张,同时也生成了大量人类参考文章中未见的独特主张。相较于人类同类文章,Agent 生成的文章包含更高频率的短句。该 Agent 成功覆盖了不同出版来源中人类记者提出的大量主张。覆盖缺口因来源而异,Agent 在简报风格文章中捕捉的人类主张最多,同时引入了众多独特见解。
该评估从多个质量量规、出版格式及风格分析维度,对比了 AI 生成的文章与人类撰写的数据新闻作品,以验证 Agent 的文本构建准确性、透明度及整体新闻质量。结果表明,该 Agent 在所有评估维度上均持续超越人类基线,其中 Inspector 功能显著提升了主张对齐程度与分析严谨性。尽管该 Agent 在数据驱动和社区聚焦类格式中表现突出,但在高度策划的编辑风格中,其表现与人类基线高度接近。总体而言,评审员强烈偏好 Agent 的输出,其具备更细致的写作风格、全面的主张覆盖以及有价值独特见解的生成能力。