HyperAI超神経

Holo1-7B: 自然言語でUI要素を正確に特定

1. チュートリアルの概要

Holo1-7Bは、HCompanyが2025年3月28日にSurfer-Hウェブエージェントシステム向けにリリースしたアクション視覚言語モデル(VLM)です。人間のユーザーのようにウェブインターフェースと対話するように設計されています。より広範なエージェントアーキテクチャの一部として、Holo1はポリシーモデル、ポジショニングモデル、検証モデルとして機能し、エージェントがデジタル環境を理解し操作するのに役立ちます。関連論文の結果は次のとおりです。Surfer-H と Holo1 の融合: Open Weights を搭載したコスト効率の高い Web エージェント”。

このチュートリアルでは、リソースとしてRTX A6000カードを1枚使用します。主に、ローカリゼーションとナビゲーションの2つの使用例を紹介します。

2. プロジェクト例

ローカリゼーション

ナビゲーション

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

2.1 ローカリゼーション

2.2 ナビゲーション

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{andreux2025surferhmeetsholo1costefficient,
      title={Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights}, 
      author={Mathieu Andreux and Breno Baldas Skuk and Hamza Benchekroun and Emilien Biré and Antoine Bonnet and Riaz Bordie and Matthias Brunel and Pierre-Louis Cedoz and Antoine Chassang and Mickaël Chen and Alexandra D. Constantinou and Antoine d'Andigné and Hubert de La Jonquière and Aurélien Delfosse and Ludovic Denoyer and Alexis Deprez and Augustin Derupti and Michael Eickenberg and Mathïs Federico and Charles Kantor and Xavier Koegler and Yann Labbé and Matthew C. H. Lee and Erwan Le Jumeau de Kergaradec and Amir Mahla and Avshalom Manevich and Adrien Maret and Charles Masson and Rafaël Maurin and Arturo Mena and Philippe Modard and Axel Moyal and Axel Nguyen Kerbel and Julien Revelle and Mats L. Richter and María Santos and Laurent Sifre and Maxime Theillard and Marc Thibault and Louis Thiry and Léo Tronchon and Nicolas Usunier and Tony Wu},
      year={2025},
      eprint={2506.02865},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2506.02865}, 
}