Command Palette
Search for a command to run...

要約
AIを活用した人間-GUIインタラクションの自動化分野において、多モーダル大規模言語モデルや強化学習によるファインチューニング技術の急速な進展により、顕著な進歩がもたらされた一方で、根本的な課題が依然として残っている。それは、これらのモデルのインタラクションロジックが、人間がGUIと自然にコミュニケーションを取る際のパターンと著しく乖離している点である。このギャップを埋めるために、本研究では「Blink-Think-Link(BTL)」と呼ばれる、人間の認知プロセスを模倣したGUIインタラクションを支援する脳にインスパイアされたフレームワークを提案する。本システムは、人間とGUIのインタラクションを、生物学的に妥当な三段階に分解する。第一段階「Blink(点滅)」:画面の関連領域を迅速に検出・注目するプロセス。これは、眼球の急激な移動(サッカード運動)に類似している。第二段階「Think(思考)」:高次の推論や意思決定を行うプロセス。これは、認知的な計画プロセスを模倣する。第三段階「Link(リンク)」:正確な運動制御に必要な実行可能なコマンドを生成するプロセス。これは、人間の行動選択メカニズムを模倣している。 さらに、BTLフレームワークに向けた二つの技術的革新を導入した。第一に「Blinkデータ生成」:Blinkフェーズに特化した自動アノテーションパイプライン。第二に「BTL報酬(BTL Reward)」:プロセスと結果の両方を基準として強化学習を駆動できる、初めてのルールベースの報酬機構である。本フレームワークを基盤として、BTL-UIと名付けたGUIエージェントモデルを構築した。このモデルは、包括的なベンチマークにおいて、静的GUI理解タスクおよび動的インタラクションタスクの両方で、一貫して最先端の性能を示した。これらの結果は、本フレームワークが高度なGUIエージェント開発において有効であることを、決定的な実証的根拠として示している。