5ヶ月前

エージェント

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

Venkatesh Mishra Amir Saeidi Satyam Raj Mutsumi Nakamura Jayanth Srinivasa Gaowen Liu Ali Payani Chitta Baral

概要

大規模言語モデル（LLM）の推論および計画能力の最近の進展により、動的な環境においてツールを利用できる自律型エージェントとしての可能性が示された。しかし、τ-benchのようなマルチターン対話環境では、こうしたエージェントは長期間にわたるツール呼び出しと対話の過程において、一貫性のある推論、ドメイン固有のポリシーへの準拠、正確な情報抽出に困難を抱えることが多くある。これらの失敗を捉え、緩和するため、我々は対話軌跡において頻発する一般的な誤りを包括的に手動分析した。その後、ツール呼び出しエージェントの意思決定を改善するため、入力の再定式化を実験的に検討した。最終的に、ユーザーのクエリに関連するドメインルールおよびツールの提案を付加し、それを自動的に再定式化する入力再定式化マルチエージェント（IRMA）フレームワークを提案する。実験結果から、IRMAはReAct、Function Calling、Self-Reflectionと比較して、全体的なpass^5スコアでそれぞれ16.1%、12.7%、19.1%優れていた。これらの結果は、動的な環境において、他の手法と比べてIRMAがより高い信頼性と一貫性を有していることを示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

エージェント

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

Venkatesh Mishra Amir Saeidi Satyam Raj Mutsumi Nakamura Jayanth Srinivasa Gaowen Liu Ali Payani Chitta Baral

概要

大規模言語モデル（LLM）の推論および計画能力の最近の進展により、動的な環境においてツールを利用できる自律型エージェントとしての可能性が示された。しかし、τ-benchのようなマルチターン対話環境では、こうしたエージェントは長期間にわたるツール呼び出しと対話の過程において、一貫性のある推論、ドメイン固有のポリシーへの準拠、正確な情報抽出に困難を抱えることが多くある。これらの失敗を捉え、緩和するため、我々は対話軌跡において頻発する一般的な誤りを包括的に手動分析した。その後、ツール呼び出しエージェントの意思決定を改善するため、入力の再定式化を実験的に検討した。最終的に、ユーザーのクエリに関連するドメインルールおよびツールの提案を付加し、それを自動的に再定式化する入力再定式化マルチエージェント（IRMA）フレームワークを提案する。実験結果から、IRMAはReAct、Function Calling、Self-Reflectionと比較して、全体的なpass^5スコアでそれぞれ16.1%、12.7%、19.1%優れていた。これらの結果は、動的な環境において、他の手法と比べてIRMAがより高い信頼性と一貫性を有していることを示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています