5 小时前

Jiachen Zhu Lingyu Yang Rong Shan Congmin Zheng Zeyu Zheng Weiwen Liu Yong Yu Weinan Zhang Jianghao Lin

摘要

自主 GUI Agent 的兴起引发了数字平台的对抗性反制措施，然而现有研究往往优先考虑效用（utility）和鲁棒性（robustness），而忽视了“抗检测”这一关键维度。我们认为，为了在以人为中心的生态系统中生存，Agent 必须进化出“拟人化”（Humanization）能力。我们提出了“屏幕图灵测试”（Turing Test on Screen），将交互过程正式建模为检测器（detector）与旨在最小化行为差异的 Agent 之间的 MinMax 优化问题。随后，我们收集了一个全新的高保真移动端触摸动力学（touch dynamics）数据集，并通过分析指出，基于原生 LMM 的 Agent 由于运动学特征（kinematics）不自然，极易被检测到。因此，我们建立了 Agent 拟人化基准测试（Agent Humanization Benchmark, AHB）以及相应的检测指标，用以量化模仿能力（imitability）与效用之间的权衡。最后，我们提出了从启发式噪声（heuristic noise）到数据驱动的行为匹配（data-driven behavioral matching）等一系列方法，从理论和实证两方面证明了 Agent 可以在不牺牲性能的前提下实现高水平的模仿能力。这项工作将研究范式从“Agent 是否能完成任务”转向了“Agent 在以人为中心的生态系统中如何完成任务”，为在对抗性数字环境中实现无缝共存奠定了基础。

一句话总结

为了增强抗检测能力，作者引入了“屏幕图灵测试”（Turing Test on Screen），该测试将移动端 GUI agent 交互建模为一个 MinMax 优化问题，并利用 Agent Humanization Benchmark 和高保真触控数据集证明了数据驱动的行为匹配可以在不牺牲任务效用的情况下提高 agent 的模仿能力。

核心贡献

本文引入了屏幕图灵测试，这是一个正式的框架，将检测器与 agent 之间的交互建模为一个专注于最小化行为差异的 MinMax 优化问题。
提出了一种全新的移动端触控动力学高保真数据集，并配套推出了 Agent Humanization Benchmark (AHB)，该基准提供了检测指标，用于量化 agent 效用与类人模仿能力之间的权衡。
作者开发了从启发式噪声到数据驱动行为匹配的多种拟人化方法，证明了 agent 可以在不牺牲任务性能的情况下实现高水平的模仿能力。

引言

随着由大规模多模态模型 (LMMs) 驱动的自主图形用户界面 (GUI) agent 变得越来越普遍，它们与依赖人类参与获取收入的数字平台之间的冲突也日益加剧。虽然现有研究侧重于提高任务效用和对环境扰动的鲁棒性，但在很大程度上忽视了“检测 vs. 抗检测”这一范式。这一差距至关重要，因为平台经常部署行为生物识别技术来过滤非人类流量，而当前的 agent 很容易通过其不自然的、机械的触控运动学和僵化的时间节奏被识别出来。

作者利用这一挑战引入了“屏幕图灵测试”，该框架将 agent 与平台之间的交互建模为检测器与 agent 之间的 MinMax 优化问题。他们贡献了一个高保真的移动端触控和传感器动力学数据集，建立了 Agent Humanization Benchmark (AHB) 以量化模仿能力与任务效用之间的权衡，并提出了各种拟人化策略（从启发式噪声到数据驱动匹配），以帮助 agent 实现类人的行为细微差别。

数据集

数据集组成与来源：作者构建了一个大规模、多模态的数据集，涵盖了组织为五个功能集群（如社交媒体和购物）的 21 个不同应用程序的交互。数据来源于两个主要分布：
- 人类操作员：四个不同的子群体（年轻人、年轻女性、中年人和老年人），以捕捉生理和年龄相关的行为差异。
- GUI Agents：来自最先进模型的动作序列，包括 UI-TARS、MobileAgent-E（使用 GPT-4o 和 Claude-3.5-Sonnet）、AgentCPM 和 AutoGLM。
数据处理与拟人化：所有数据都在单一设备（小米 Mi Max 2）上收集以确保一致性。作者对 agent 实施的是实时拟人化技术，而非事后处理：
- 无虚假动作：延长点击持续时间，并通过数据驱动的轨迹匹配来呈现滑动动作。
- 含虚假动作：agent 进行点击延长和滑动拟人化，并辅以在最后一次点击位置后遵循泊松过程产生的微小圆形手势（半径 50 px）。
- 动作分类：如果动作包含少于 5 个 FingerEvents，则归类为点击；如果包含 5 个或更多，则归类为滑动。
特征构建与元数据：为了区分人类和 agent，作者基于触控动力学导出了 24 个统计特征，包括运动学（速度、加速度）、几何学（路径效率、曲率）和时间动力学（持续时间、延迟）。数据集还包括各种传感器流，如加速度计、陀螺仪、磁场和光传感器，尽管主要关注点仍是 MotionEvents。
模型使用：作者使用该数据集来评估检测器的判别能力。他们利用收集到的运动和传感器事件来研究区分真实人类用户与自主 agent 的行为特征。

方法

Agent Humanization Benchmark (AHB) 的框架结构为检测器 $D_{\Theta}$ 与 GUI Agent $G_{\Phi}$ 之间的 Min-Max 对抗博弈，旨在评估 agent 在保持任务效用的同时模仿类人交互模式的能力。这种对抗设置基于分层交互模型，其中 agent 的动作被分解为两个层面：逻辑动作层面和物理事件层面。在逻辑层面，agent 根据当前环境状态 $s_t$ 生成高层 UI 命令（如点击或滑动），遵循转移动力学 $s_{t+1} = \mathcal{T}(s_t, a_t)$ ，其中 $a_t = G_{\Phi}(s_t)$ 是 agent 的输出。这些命令随后通过映射函数 $f$ 转换为细粒度的物理事件 $E_t$ ，从而产生一系列运动和传感器事件。运动事件捕捉触控动力学（坐标、压力），而传感器事件包括来自陀螺仪、磁力计和其他硬件的数据，共同构成了行为轨迹 $\mathcal{E}_{1:T} = \bigcup_{t=1}^{T} E_t$ 。该轨迹作为检测器的输入，检测器的目标是将该序列分类为人类生成或 agent 生成。

The framework diagram of the Agent Humanization Benchmark

检测器 $D_{\Theta}$ 在每个时间步评估累积的事件流 $\mathcal{E}_{1:t}$ ，输出一个概率 $y_t = D_{\Theta}(\mathcal{E}_{1:t})$ ，反映该序列为人类生成的可能性。其目标是最大化分类准确率，形式化为交叉熵损失： $\mathcal{L}_D = \mathbb{E}_{\mathcal{E} \sim \mathcal{H}}[\log D_{\Theta}(\mathcal{E})] + \mathbb{E}_{\mathcal{E} \sim G_{\Phi}}[\log(1 - D_{\Theta}(\mathcal{E}))]$ ，其中 $\mathcal{H}$ 和 $G_{\Phi}$ 分别代表人类和 agent 生成的事件序列分布。相比之下，agent $G_{\Phi}$ 必须优化其参数以最小化检测概率，同时保留任务效用，从而得出正则化损失函数： $\mathcal{L}_G = \mathbb{E}_{s \sim \mathcal{S}}\left[\sum_{t=1}^{T} \mathbb{I}(D_{\Theta}(\mathcal{E}_{1:t}) < \tau) - \lambda \cdot R_{\text{task}}(G_{\Phi})\right]$ 。这里， $\tau$ 是检测阈值， $\mathbb{I}(\cdot)$ 是指示函数， $R_{\text{task}}$ 表示任务成功率， $\lambda$ 控制模仿能力与功能性之间的权衡。

为了实现拟人化，该框架采用了一个外部封装模块 $H$ ，将原始 agent 动作 $a_{\text{raw}}$ 转换为拟人化序列 $a_{\text{human}}$ 。研究提出了四种不同的策略来应对人类行为的不同方面：(1) 启发式噪声注入，使用 B 样条平滑在滑动轨迹中引入生物学上合理的曲率；(2) 数据驱动的历史匹配，通过仿射变换使 agent 动作与真实人类轨迹对齐，以保留真实的速率分布和微小抖动；(3) 虚假动作，在空闲期间注入非功能性的微交互，以掩盖推理延迟；(4) 长按，从拟合人类数据的高斯分布中采样点击持续时间，以消除原始 agent 特有的接近零的点击持续时间。这些策略的理论基础由定理提供，这些定理确立了方差注入的有效性，以及历史匹配在降低人类与 agent 行为分布之间的 Jensen-Shannon 散度方面的渐进优越性。

实验

评估通过机器学习分类器对比了各种拟人化策略（包括轨迹调整和时间噪声注入），以评估它们掩盖机械化 agent 模式的能力。虽然路径形状等几何特征可以通过经验数据匹配轻松实现拟人化，但由于行为模仿能力与任务效用之间的根本权衡，时间节奏和终点精度仍然难以掩盖。最终结果表明，虽然有效的拟人化可以显著降低检测准确率，但简单的噪声注入可能会无意中引入新的机械特征或破坏任务成功，因此需要更具上下文感知能力的方法。

作者在多个任务和检测规则下比较了各种拟人化方法，评估了它们在保持任务效用的同时降低可检测性的有效性。结果显示，不同的策略在不同任务和检测规则下的表现各异，某些方法显著降低了检测准确率，但以牺牲效用为代价。在降低检测准确率方面，History Matching 在各项任务中始终优于 B-spline Noise。虚假动作注入降低了检测准确率，但往往会导致显著的任务效用损失。拟人化的有效性因任务而异，某些策略能保持高水平的效用，而其他策略则会导致性能大幅下降。

作者比较了不同拟人化策略在运动事件和传感器事件上的有效性。结果显示，与没有虚假动作注入的 agent 相比，注入虚假动作的拟人化 agent 获得了更高的整体检测分数，表明其模仿能力降低。带有虚假动作注入的拟人化会导致比不带注入更高的检测分数。不同的拟人化策略对运动和传感器事件特征的影响不同。带有虚假动作注入的 agent 的整体检测分数更高。

热图可视化了从人类和非拟人化 agent 轨迹中提取的行为特征之间的相关性。它揭示了高度相关的特征集群，特别是在速度和偏差指标之间，表明 agent 运动中存在不同于人类变异性的共同模式。速度和偏差特征在非拟人化 agent 之间显示出强正相关。持续时间和起始坐标等特征表现出混合相关性，表明存在多样的行为模式。该矩阵突出了相关的属性集群，反映了人类与 agent 运动之间潜在的结构性差异。

该表展示了各种行为特征的信息增益值，表明它们区分人类和 agent 动作的能力。与坐标和时间属性相比，与轨迹偏差和空间指标相关的特征显示出更高的判别能力。几何和偏差特征比坐标和基于时间的特征具有更高的信息增益。速度和加速度指标显示出中等的信息增益，峰值在 0.5 左右。像 maxDev 和 ratio_end_to_length 这样的特征具有高信息增益，表明它们是类人行为的强判别器。

该表展示了在两个应用集群中，不同拟人化策略的检测准确率结果。结果显示，拟人化方法降低了可检测性，其有效性取决于特征和集群。与原始 agent 数据相比，拟人化策略降低了大多数特征的检测准确率。History Matching 在两个集群中都显示出在降低可检测性方面的持续改进。拟人化的有效性因特征而异，某些指标（如 maxDev）显示出显著降低，而其他指标（如 duration）仍保持在高位。

Humanization impact on detection metrics

作者在多个任务和检测规则下评估了各种拟人化策略，以评估它们在保持任务效用的同时降低可检测性的能力。实验表明，虽然像 History Matching 这样的方法能持续降低检测准确率，但其他方法（如虚假动作注入）可能会导致显著的性能下降。此外，对特征相关性和信息增益的分析表明，几何和偏差指标是区分人类和 agent 行为最关键的判别器。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 小时前

Jiachen Zhu Lingyu Yang Rong Shan Congmin Zheng Zeyu Zheng Weiwen Liu Yong Yu Weinan Zhang Jianghao Lin

摘要

一句话总结

核心贡献

本文引入了屏幕图灵测试，这是一个正式的框架，将检测器与 agent 之间的交互建模为一个专注于最小化行为差异的 MinMax 优化问题。
提出了一种全新的移动端触控动力学高保真数据集，并配套推出了 Agent Humanization Benchmark (AHB)，该基准提供了检测指标，用于量化 agent 效用与类人模仿能力之间的权衡。
作者开发了从启发式噪声到数据驱动行为匹配的多种拟人化方法，证明了 agent 可以在不牺牲任务性能的情况下实现高水平的模仿能力。

引言

数据集

数据集组成与来源：作者构建了一个大规模、多模态的数据集，涵盖了组织为五个功能集群（如社交媒体和购物）的 21 个不同应用程序的交互。数据来源于两个主要分布：
- 人类操作员：四个不同的子群体（年轻人、年轻女性、中年人和老年人），以捕捉生理和年龄相关的行为差异。
- GUI Agents：来自最先进模型的动作序列，包括 UI-TARS、MobileAgent-E（使用 GPT-4o 和 Claude-3.5-Sonnet）、AgentCPM 和 AutoGLM。
数据处理与拟人化：所有数据都在单一设备（小米 Mi Max 2）上收集以确保一致性。作者对 agent 实施的是实时拟人化技术，而非事后处理：
- 无虚假动作：延长点击持续时间，并通过数据驱动的轨迹匹配来呈现滑动动作。
- 含虚假动作：agent 进行点击延长和滑动拟人化，并辅以在最后一次点击位置后遵循泊松过程产生的微小圆形手势（半径 50 px）。
- 动作分类：如果动作包含少于 5 个 FingerEvents，则归类为点击；如果包含 5 个或更多，则归类为滑动。
特征构建与元数据：为了区分人类和 agent，作者基于触控动力学导出了 24 个统计特征，包括运动学（速度、加速度）、几何学（路径效率、曲率）和时间动力学（持续时间、延迟）。数据集还包括各种传感器流，如加速度计、陀螺仪、磁场和光传感器，尽管主要关注点仍是 MotionEvents。
模型使用：作者使用该数据集来评估检测器的判别能力。他们利用收集到的运动和传感器事件来研究区分真实人类用户与自主 agent 的行为特征。

方法

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

屏幕上的图灵测试：一个衡量 Mobile GUI Agent 人性化的 Benchmark

Jiachen Zhu Lingyu Yang Rong Shan Congmin Zheng Zeyu Zheng Weiwen Liu Yong Yu Weinan Zhang Jianghao Lin

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

屏幕上的图灵测试：一个衡量 Mobile GUI Agent 人性化的 Benchmark

Jiachen Zhu Lingyu Yang Rong Shan Congmin Zheng Zeyu Zheng Weiwen Liu Yong Yu Weinan Zhang Jianghao Lin

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

屏幕上的图灵测试：一个衡量 Mobile GUI Agent 人性化的 Benchmark

Jiachen Zhu Lingyu Yang Rong Shan Congmin Zheng Zeyu Zheng Weiwen Liu Yong Yu Weinan Zhang Jianghao Lin

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters