3ヶ月前

エージェント

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

Qiushi Sun Mukai Li Zhoumianze Liu Zhihui Xie Fangzhi Xu Zhangyue Yin Kanzhi Cheng Zehao Li Zichen Ding Qi Liu

概要

視覚言語モデル（VLM）を搭載したコンピュータ操作エージェントは、モバイルプラットフォームを含むデジタル環境における操作において、人間並みの能力を示している。こうしたエージェントは、デジタル自動化の進展に大きな可能性を秘めている一方で、システムの不正アクセスや個人情報漏洩といった安全上の懸念を引き起こすリスクも伴っており、深刻な問題となっている。特に、モバイル環境の広大かつ複雑な運用空間において、こうした安全上の懸念を効果的に検出することは、極めて困難な課題であり、これまで十分に研究されていない。モバイルエージェントの安全性に関する研究の基盤を築くために、本研究では、現実的な運用軌道と細粒度のアノテーションを備えた安全検出ベンチマークを搭載した動的サンドボックス環境「MobileRisk-Live」を提案する。これに基づき、明示的なシステムレベルの違反を検出するための形式的検証器（Formal Verifier）と、文脈的なリスクおよびエージェント行動を評価するVLMベースの文脈判断器（Contextual Judge）を統合的に活用する、新たなハイブリッド安全検出フレームワーク「OS-Sentinel」を提案する。実験の結果、OS-Sentinelは複数の評価指標において、既存手法と比較して10～30％の性能向上を達成した。さらに、詳細な分析から得られた知見は、より安全かつ信頼性の高い自律型モバイルエージェントの開発を促進する上で重要なインサイトを提供している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

エージェント

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

Qiushi Sun Mukai Li Zhoumianze Liu Zhihui Xie Fangzhi Xu Zhangyue Yin Kanzhi Cheng Zehao Li Zichen Ding Qi Liu

概要

視覚言語モデル（VLM）を搭載したコンピュータ操作エージェントは、モバイルプラットフォームを含むデジタル環境における操作において、人間並みの能力を示している。こうしたエージェントは、デジタル自動化の進展に大きな可能性を秘めている一方で、システムの不正アクセスや個人情報漏洩といった安全上の懸念を引き起こすリスクも伴っており、深刻な問題となっている。特に、モバイル環境の広大かつ複雑な運用空間において、こうした安全上の懸念を効果的に検出することは、極めて困難な課題であり、これまで十分に研究されていない。モバイルエージェントの安全性に関する研究の基盤を築くために、本研究では、現実的な運用軌道と細粒度のアノテーションを備えた安全検出ベンチマークを搭載した動的サンドボックス環境「MobileRisk-Live」を提案する。これに基づき、明示的なシステムレベルの違反を検出するための形式的検証器（Formal Verifier）と、文脈的なリスクおよびエージェント行動を評価するVLMベースの文脈判断器（Contextual Judge）を統合的に活用する、新たなハイブリッド安全検出フレームワーク「OS-Sentinel」を提案する。実験の結果、OS-Sentinelは複数の評価指標において、既存手法と比較して10～30％の性能向上を達成した。さらに、詳細な分析から得られた知見は、より安全かつ信頼性の高い自律型モバイルエージェントの開発を促進する上で重要なインサイトを提供している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

OS-Sentinel：現実的なワークフローにおけるハイブリッド検証を活用した安全強化型モバイルGUIエージェントの実現 | 記事 | HyperAI超神経