Command Palette
Search for a command to run...
AgentSocialBench:评估以人为本的 Agent 社交网络中的隐私风险
AgentSocialBench:评估以人为本的 Agent 社交网络中的隐私风险
Prince Zizhuang Wang Shuli Jiang
摘要
随着个性化、持久化的 LLM 代理(Agent)框架(如 OpenClaw)的兴起,以人为核心的代理社交网络正逐步成为现实。在此类网络中,多领域协作的 AI 代理团队可为个体用户提供跨域服务。然而,这一新范式也带来了独特的隐私挑战:代理需在跨越领域边界、协调多方人类用户以及与其他用户的代理进行交互的同时,有效保护敏感个人信息。尽管已有研究评估了多代理协调机制与隐私保护技术,但以人为核心的代理社交网络中的动态行为及其隐私风险尚未得到系统探索。为此,我们提出了 AgentSocialBench——首个针对该场景系统性评估隐私风险的基准测试。该基准涵盖七类场景,包括双边及多方交互,并基于真实用户画像构建,其中包含分层敏感标签与有向社交图谱。实验结果表明,代理社交网络中的隐私保护难度显著高于单代理环境:(1)跨域与跨用户协调即便在代理被明确指令要求保护信息的情况下,仍会持续引发信息泄露压力;(2)旨在教导代理如何抽象敏感信息的隐私指令,反而会导致代理更频繁地讨论该信息(我们称之为“抽象悖论”)。这些发现凸显了当前 LLM 代理在以人为核心的代理社交网络中缺乏稳健的隐私保护机制,表明仅靠 Prompt Engineering 已不足以确保代理介导的社会协调在现实世界部署中的安全性,亟需探索新的技术路径。
一句话总结
卡内基梅隆大学的研究人员推出了 AGENT SOCIALBENCH,这是首个评估以人为中心的代理社交网络中隐私风险的基准。他们的研究揭示,跨域协调和“抽象悖论”使得隐私保护比单代理场景更加困难,表明当前的 LLM 代理缺乏安全部署到现实世界的稳健机制。
主要贡献
- 本文介绍了 AgentSocialBench,这是首个通过构建基于合成多领域用户档案(包含分层敏感度标签和定向社交图)的 300 多个场景,系统评估以人为中心的代理社交网络中隐私风险的基准。
- 这项工作提出了特定类别的泄露指标、信息抽象评分以及隐私指令阶梯,以实现对基于提示的防御如何改变多代理协调中隐私 - 效用前沿的细粒度测量。
- 实验表明,跨域和跨用户协调会产生持续的泄露压力,并揭示了“抽象悖论”:旨在教导代理抽象敏感信息的隐私指令,反而悖论性地增加了信息泄露。
引言
以 OpenClaw 为代表的个性化 LLM 代理框架的兴起,催生了以人为中心的代理社交网络。在这些网络中,AI 团队跨领域协调以服务于个人用户,同时也带来了关键的隐私挑战:代理在保护敏感数据的同时需要中介交互。先前的基准测试未能解决这一特定场景,因为它们侧重于自主代理目标、单领域谈判或对抗性探测,而非具有分层隐私边界的复杂多方协调动态。作者推出了 AgentSocialBench,这是首个系统评估这些网络中隐私风险的基准,揭示了跨域协调会产生持续的泄露压力,且教导抽象的隐私指令可能悖论性地增加信息泄露。
数据集
AgentSocialBench 数据集概览
作者推出了 AgentSocialBench,这是一个旨在评估以人为中心的代理社交网络中隐私风险的合成数据集。该数据集的构建旨在测试 AI 代理在各种社交配置中如何在遵守严格隐私边界的同时协调任务。
-
数据集构成与来源
- 该基准包含跨越六个领域的合成用户档案:健康、金融、社交、日程、职业和生活方式。
- 这些档案中的每个属性都被分配了一个 5 点量表的敏感度标签,范围从公开(1)到高度敏感(5)。
- 多方场景包括具有非对称亲和层级的定向社交图,以模拟复杂的关系动态。
- 所有场景均基于人类专家标注的成功标准,这些标准定义了协调目标和具体的隐私保护要求。
-
每个子集的关键细节
- 数据集分为七个场景类别,划分为二元(dyadic)和多方(multi-party)组。
- 二元类别:
- 跨域(CD): 评估用户专用代理之间的信息流(例如从健康到社交),而不泄露底层诊断。
- 中介通信(MC): 测试代理在促进两人对话时隐藏用户私有数据的能力。
- 跨用户(CU): 模拟当不同用户的代理通过 A2A 协议通信时的双向隐私风险。
- 多方类别:
- 群聊(GC): 评估代理在群体环境中的表现,它们必须在广播和私聊之间做出选择以防止泄露。
- 中心辐射(HS): 测试协调员从多个参与者聚合信息而不发生交叉污染的能力。
- 竞争(CM): 在竞争压力下引入自我泄露风险,例如求职者竞争某个职位。
- 亲和调节(AM): 要求根据非对称亲和层级(例如,仅与亲密家人分享医疗细节)制定每接收者的共享规则。
-
在模型评估中的使用
- 作者利用该数据集评估三种不同的隐私指令级别:
- L0(无约束): 代理未收到隐私指导,必须从社会规范中推断期望。
- L1(显式): 将硬性隐私规则和可接受的抽象直接注入代理提示中。
- L2(完整防御): 在 L1 基础上增加域边界提示(DBP)、信息抽象模板(IAT)和最小信息原则(MIP)检查表。
- 评估依赖于由人类专家验证的"LLM 作为裁判”框架来对交互进行评分。
- 指标包括隐私泄露率(按场景类型分类)和效用评分,后者衡量信息抽象质量和任务完成质量。
- 作者利用该数据集评估三种不同的隐私指令级别:
-
处理与元数据构建
- 抽象目录: 每个场景定义了从敏感私有事实到可接受抽象的特定映射,作为判断泄露与可接受共享的基准真相。
- 行为标注: 数据集包含八种通用行为模式的标注(四种负面,如过度分享;四种正面,如边界维护)以及六种跨用户特定模式。
- 数据工件: 发布内容包括用户档案、场景规范和模拟输出的完整 JSON 工件,其中包含带有每轮元数据的完整对话日志。
- 生成流程: 场景使用 LLM(例如 GPT-5)生成,配合特定的系统提示和防御模板,这些模板在运行时根据场景规范进行填充。
方法
作者提出了一种以人为中心的代理社交网络框架,旨在评估多代理协调中的隐私保护。该系统模拟了一组用户 U={u1,…,un},它们通过定向社交图 G=(U,E) 连接,其中边属性定义了关系背景和亲和层级。每位用户由一组领域专用代理 Ai={aid1,…,aidk} 服务,其中每个代理持有用户私有信息 Pid 的特定切片。该框架区分了涉及两方的二元交互,以及引入组合隐私风险的多方交互(因为信息必须针对每位接收者的共享规则进行评估)。
参考框架图以了解 AgentSocialBench 生态系统的三个核心支柱。左侧面板概述了任务环境,包括团队内部协调、代理中介和跨用户协调。中央面板描绘了用户和代理交互的以人为中心的代理社交网络。右侧面板详细说明了评估指标,特别关注隐私泄露率和任务质量完成率。
隐私规范通过源自情境完整性理论的四种约束类型进行具体化。域边界规定,一个领域(如健康)中高敏感度的信息不应以原文形式出现在另一个领域(如社交)中,而需要可接受的抽象。用户边界确保 Pi 中的信息不会在未经明确授权的情况下披露给 Aj 中的代理。中介边界防止代理在促进用户与另一人之间的通信时泄露私人细节。最后,亲和调节边界根据关系层级 αij∈{close,friend,acquaintance,stranger} 调整共享权限,其中权限随层级单调受限。
如下图所示,该基准定义了七种不同的社交拓扑来测试这些约束,例如亲和调节、跨域、中介通信和中心辐射。该图还说明了一个具体场景,其中代理协调生日晚餐。它对比了保护隐私的回复(避免泄露饮食限制的医疗原因)和泄露的回复(暴露用户的诊断)。

系统根据接收者的亲和层级动态调节信息粒度。参考亲和调节共享示例,可以看到代理如何调整其通信策略。当与“亲密”联系人互动时,代理会分享具体的医疗细节,如糖尿病诊断。对于“朋友”,它将其概括为需要饮食调整的健康状况。对于“熟人”,它进一步将信息抽象为一般的饮食偏好,而不提及潜在病症。
为了减轻隐私故障,作者研究了注入代理系统提示中的轻量级基于提示的干预措施。这些包括域边界提示(DBP),它强制执行禁止跨域共享高敏感度信息的规则;信息抽象模板(IAT),它提供敏感数据的特定替换(例如,用“有一些健康考虑”替换诊断);以及最小信息原则(MIP),它指示代理仅分享完成任务所需的最少信息。评估使用诸如跨域泄露率(CDLR)和亲和合规评分(ACS)等指标来衡量性能,后者评估共享决策是否符合特定层级的规则。
实验
- 评估了八个 LLM 骨干网络在七个社交协调场景中的表现,确立了跨域交互产生的隐私泄露压力最强,其泄露率通常是中介或跨用户交互的两到三倍。
- 证明了多方社交动态重塑而非均匀放大风险,其中竞争环境抑制了自我披露,亲和调节场景实现了近乎完美的合规性,而中心辐射结构则造成了特定的协调瓶颈。
- 揭示了“抽象悖论”:隐私指令提高了信息抽象的质量,但在某些类别中悖论性地增加了总体泄露,因为它们为代理提供了被许可的语言来引用它们原本会省略的敏感话题。
- 表明基于提示的防御能有效抑制显式的过度分享和交叉引用,但无法消除基于隐式推断的泄露,实际上将隐私违规从显式形式重塑为隐式形式,且未产生可衡量的效用成本。
- 得出结论:没有任何单一模型在所有隐私和效用维度上实现帕累托最优,表明当前的提示工程方法存在根本性局限,需要架构层面的解决方案以实现安全的现实世界部署。