HyperAIHyperAI

Command Palette

Search for a command to run...

Search-o1:エージェント型検索強化型大規模推論モデル

Xiaoxi Li Guanting Dong Jiajie Jin Yuyao Zhang Yujia Zhou Yutao Zhu Peitian Zhang Zhicheng Dou

概要

OpenAI-o1 などの大規模推論モデル(LRM)は、大規模な強化学習を用いて、長時間にわたる段階的推論能力を顕著に示している。しかし、その延長された推論プロセスは、知識の不足に起因し、頻繁に不確実性が生じ、誤りを引き起こす傾向がある。この課題を克服するため、本研究では、エージェント型の検索・拡張生成(RAG)機構と、取得した文書の精査を目的とした「文書内推論モジュール(Reason-in-Documents)」を搭載したフレームワーク「Search-o1」を提案する。Search-o1 は、推論プロセスにエージェント型の検索ワークフローを統合し、LRM が不確実な知識ポイントに直面した際に、動的に外部知識を取得できるようにしている。さらに、取得される文書は冗長な傾向があるため、推論連鎖への挿入前に、別途設計された「文書内推論モジュール」を用いて取得情報の深層分析を実施することで、ノイズの低減と一貫性のある推論フローの維持を図っている。科学、数学、プログラミングにおける複雑な推論タスクおよび6つのオープンドメインQAベンチマークを対象とした広範な実験により、Search-o1 の優れた性能が確認された。本アプローチは、複雑な推論タスクにおけるLRMの信頼性と適用可能性を高め、より信頼性が高く多様な機能を備えた知能システムの実現に道を開くものである。コードは https://github.com/sunnynexus/Search-o1 にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています