HyperAIHyperAI

Command Palette

Search for a command to run...

2 天前
Agent

AOHP:面向个性化、高效与安全交互的开源操作系统级 Agent 框架

摘要

AI agents 正在推动一种新的软件范式,具备自主调用工具、提取信息、管理内存以及跨应用和数据源完成任务的能力。然而,大多数现有的面向终端用户的操作系统是为以应用为中心的工作流而设计的,对 AI agents 几乎不提供原生支持。这种不匹配限制了 agents 的更广泛应用,并在传统系统上运行 agents 时导致执行开销和安全风险。尽管 agent-native 操作系统的概念正在兴起,但研究界缺乏一个开放测试平台来探索实现 agent-mediated 交互所需的架构原语。我们提出了 AOHP(Android Open Harness Project),这是一个基于 Android Open Source Project (AOSP) 构建的操作系统级 agent harness。AOHP 的核心设计原则是将 agents 视为一等 OS 主体,从而实现自适应用户界面和 agent-friendly 运行时环境。AOHP 在保留成熟的 Android 软硬件生态系统的同时,引入了三种面向 agent 的系统机制:个性化服务组合、高效的 agent interfaces 以及安全的信息流。基于涵盖 OS agents 关键能力的挑战性任务的初步实验,AOHP 在任务完成(完成率 +21.12%)、执行成本(token cost -51.55%)以及安全策略合规性方面展现出明显优势。

一句话总结

作者提出了 AOHP(Android Open Harness Project,安卓开放负载平台),一个基于安卓开源项目构建的操作系统级 agent 负载平台,通过个性化服务组合、高效 agent 接口以及安全信息流,将 AI agent 视为系统中的一等公民,相比传统系统,任务完成率提高 21.12%,token 成本降低 51.55%,并严格遵循安全策略。

核心贡献

  • 一种 agent 原生的操作系统架构,将服务视为与接口无关的能力,并将跨应用的个性化与敏感状态管理上移至系统层,解决了以应用为中心的平台与 agent 工作流之间的失配问题。
  • AOHP,一个基于安卓开源项目构建的操作系统级负载平台,引入了面向任务入口的个性化服务组合、支持并行后台执行与结构化 UI/事件流的高效 agent 接口,以及通过可信追踪对敏感值进行沙盒处理的安全信息流机制。
  • 使用 OpenClaw agent 在需要跨应用交互的自制移动任务上进行评估,结果表明,相较于原生安卓,AOHP 将平均任务完成率从 54.44% 提升至 75.56%,将大语言模型的 token 消耗降低 51.55%,并将任务执行速度提升 44.21%;安全案例研究证实,该设计在保证合法任务执行的同时,限制了对隐私数据的明文暴露。

引言

AI agent 正从简单的聊天界面进入操作系统本身,协调工具、图形用户界面和跨应用工作流,以满足用户意图。传统以应用为中心的操作系统设计阻碍了这一转变:它们呈现为人类优化的固定像素界面,假设同一时间只有一个活动应用,并在应用边界实施权限控制,却未追踪敏感数据在 agent 上下文和工具调用中如何流转。以往的 GUI 自动化工作将操作系统视为固定基底,遗留了执行开销和安全漏洞。作者通过将安卓重新设计为 AOHP 来解决这一失配问题,AOHP 是一个 agent 原生负载平台,引入了个性化服务组合以生成任务级入口,支持并行后台执行和结构化事件的高效 agent 接口,以及一个带有信息流追踪的可信保险库,使隐私值保持占位符形式,不出现在 agent 的明文上下文中。这种操作系统级的重构提升了任务完成率,减少了 token 消耗和执行时间,并限制了敏感数据的暴露。

数据集

基准数据集由 30 个手工设计的移动 UI 任务组成,反映真实工作流,分为五个核心能力类别和一个结合它们的混合类别。

  • 构成与来源

    • 总共 30 个任务,平均分布在六个类别中(每个类别五个任务)。
    • 任务由作者使用标准安卓应用(如日历、笔记、消息、Markor、联系人和相册)设计。
    • 任务以自然语言指令形式呈现,旨在测试 agent 检索、操作和推理应用数据的能力。
  • 类别与任务详情

    • 每个核心能力类别针对一项特定技能(例如信息检索、记忆管理)。混合类别则组合多种技能。
    • 记忆管理任务(类别 5)采用两阶段结构:阶段 A 执行一个动作(例如创建日历事件),阶段 B 询问与所执行动作相关的记忆问题。
    • 任务指令包含明确的检查点(如文件路径、回答格式),并常常需要从多个应用汇总信息。
    • 示例任务:
      • 检索任务:“请查找并汇总下一次开发会议的信息……将三行内容写入……/ir_dev_meeting_brief.txt”,使用日历、笔记和联系人。
      • 一个涉及巴黎之行的多应用汇总任务,使用日历、消息(短信)和 Markor。
      • 记忆任务:创建一个会议,然后回答“下个月 15 号的开发会议结束时间是什么?下个月 30 号的任务标题是什么?”
  • 数据在论文中的使用方式

    • 基准数据集仅用于评估;因为不是训练数据集,所以没有训练集划分或混合比例。
    • agent 收到任务指令,必须与移动环境交互以生成正确的输出或答案。
  • 处理与元数据

    • 每个任务附有人类可读的指令、参考答案或预期文件内容,以及文件路径约束。
    • 对于记忆任务,两阶段格式自动将执行步骤与回忆问题配对。
    • 未对任务描述应用裁剪或图像预处理;基准数据集作为文本规格用于评估运行。

方法

作者提出了 AOHP(Android Open Harness Project),一个基于安卓开源项目(AOSP)构建的操作系统级 agent 负载平台。核心设计原则是将 agent 视为操作系统的一等公民,支持自适应用户界面和 agent 友好的运行环境。如下图所示,系统从传统以应用为中心、面向人类交互的原生安卓范式,转变为 agent 原生、面向服务的架构。

在传统范式中,用户通过顺序交互在隔离的应用孤岛中操作。这导致交互效率低下、应用间记忆孤立、权限粒度过粗以及工作流静态预定义。相比之下,AOHP 引入了一个理解、规划、编排、执行和监控任务的操作系统 agent。该 agent 通过生成的服务入口(如购物聚合器或旅行规划器)来中介个性化的用户交互。它通过多接口交互调用底层应用和服务,利用 API、CLI、结构化 UI 和渲染的 GUI。这一转变实现了高效的任务执行、系统级记忆、细粒度信息流和灵活的服务组合。

AOHP 的详细架构组织为纵向分层和横向跨层机制,如下图所示:

个性化服务组合 在顶层,系统生成个性化服务入口。这些是面向用户的外壳,由操作系统管理的服务组合支撑。例如,购物入口可以聚合来自多个提供商的产品搜索,规范化属性,并应用用户偏好。每个入口包含任务模式、服务图和呈现策略。操作系统 agent 通过 API、CLI 和 GUI 通道发现服务能力,并用输入/输出模式以及策略标签进行表示。组合受到策略约束。例如,产品搜索可以并行化,而购买提交则需要显式确认。系统记忆允许个性化不受应用边界限制,区分持久的个人资料记忆、任务本地记忆和敏感记忆。

AOHP 能力与统一交互界面 中央能力层将服务重组为系统记忆、技能和 UI 工具。系统记忆在任何单一应用之外存储偏好和任务状态。技能将可复用的服务能力打包。UI 工具支持生成入口的构建。在这一层之下,统一交互界面将传统的安卓接口和新兴的 agent 接口规格化为四种调用模式:API、CLI、结构化 UI 和渲染的 GUI。这使得 agent 在有可用路径时选择紧凑的符号路径,在兼容性需要时回退到可视化操作。底层仍然是安卓生态系统,保留现有应用、系统服务和原生框架作为兼容性基础。

高效 agent 接口 为优化 agent 访问系统资源的方式,作者在架构左侧引入了高效 agent 接口。

  • 并行后台交互:AOHP 通过轻量级虚拟显示将执行与屏幕解耦,使 agent 能够在不抢占前台会话的情况下在后台运行工作流。
  • 面向 agent 的 UI 增强:GUI 被抽象为冗余更低、语义更丰富的结构化表示,同时保留渲染的 GUI 作为后备。
  • 原生沙盒运行时:一个原生 Linux 沙盒环境为计算和工具提供了独立于面向应用接口的执行表面。
  • 统一文件快捷方式:这桥接了 GUI 和 CLI 的文件处理,将文件视为一等任务对象。影响存储的 GUI 交互会反映为结构化文件观察。
  • 事件流抽象:这捕获动态通知和传感器流访问,将事件生成与消费分离。

安全信息流 在右侧,安全信息流机制将敏感数据视为操作系统控制的状态。

  • 策略执行:策略层评估运行时的数据使用,考虑数据来源、用途、目的地和操作敏感性。
  • 敏感源净化:在敏感内容进入 agent 上下文之前,明文会被替换为类型化占位符。
  • 可信保险库与执行:明文和特权操作保持在可信服务内部。agent 使用 UUID 请求操作,由可信执行环境和数据保险库处理。
  • 数据流污点追踪:污点元数据在值经过复制、转换和传输时跟随其流动。在系统出口处,被污点的数据在显示或传输前会进行检查,提供从源到汇的审计轨迹。

实验

评估将使用 AOHP agent 原生接口的 agent 与在原生安卓上运行的同一 agent 在 30 个真实世界任务中进行对比,这些任务涵盖 GUI 和非 GUI 操作、事件捕获、多源检索、记忆管理以及混合工作流。AOHP 显著提升了任务完成率,尤其是在通知驱动、跨应用和依赖记忆的场景中,通过提供结构化观察、系统 API 和虚拟执行简化了工作流。在两种设置都能解决的任务上,AOHP 将工具调用、持续时间和 token 消耗减少了 44% 至 52%,因为面向 agent 的快捷方式取代了昂贵的 GUI 导航。使用带标注的支付应用进行的补充安全测试证实,AOHP 的信息流控制正确执行了源净化、操作中介、污点传播和故障时关闭行为。

作者使用专门构建的带标注支付应用评估了 AOHP 系统的信息流安全性。评估测试了数据显示、操作中介和访问控制机制,以确保金融数据的安全处理。结果表明,系统成功执行了所有预期的安全行为,在允许标准操作的同时保护敏感信息。敏感字段(如账号和卡号)在 agent 界面中显示为保险库引用,而非明文。系统区分自动进行的普通操作和需要用户同意的敏感操作(如转账)。超出策略范围的访问请求会因故障而关闭,交易事件流会编辑敏感字段,同时保留污点元数据。

作者使用两种设置都能完全解决的任务,评估了 OpenClaw agent 在 AOHP 上与原生安卓相比的执行效率。结果表明,通过利用简化交互并减少上下文大小的 agent 原生接口,AOHP 显著降低了资源消耗和执行时间。与原生安卓基线相比,AOHP 大幅减少了工具调用次数和总执行时长。由于执行步骤更少且观察结果更紧凑,使用 AOHP 时的 token 消耗和 LLM 请求显著降低。效率提升由绕过复杂 GUI 导航和数据处理工作流的专用接口驱动。

安全评估使用专门构建的带标注支付应用,验证 agent 系统执行信息流控制,通过将账号和卡号显示为保险库引用、对敏感操作要求用户同意、确保未经授权的访问请求因故障而关闭,同时交易事件流编辑敏感字段但保留污点元数据,从而保护敏感数据。另一项效率实验将 OpenClaw agent 在 AOHP 上与原生安卓进行对比,结果显示 agent 原生接口通过简化交互减少了工具调用数量、执行时长和 token 使用,从而显著降低了资源消耗,绕过复杂的 GUI 导航。这些实验共同证实,系统安全地中介金融数据访问,并实现了相比标准移动平台显著的性能提升。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供