3ヶ月前

エージェント

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

Alexis Audran-Reiss Jordi Armengol Estapé Karen Hambardzumyan Amar Budhiraja Martin Josifoski Edan Toledo Rishi Hazra Despoina Magka Michael Shvartsman Parth Pathak

概要

AI研究エージェントは、機械学習モデルの設計、実装および学習を自動化することで、科学的進歩の加速を約束している。しかし、この分野はまだ初期段階にあり、エージェントの行動経路が成功または失敗に至る要因については十分に理解されていない。本研究では、アイデーションの多様性がエージェントのパフォーマンスに果たす役割に注目する。まず、AI研究エージェントの評価に広く用いられるベンチマーク「MLE-bench」において、異なるモデルおよびエージェントスキャフォールド（エージェントの枠組み）に対するエージェントの行動経路を分析した。その結果、異なるモデルやエージェントスキャフォールドは、アイデーションの多様性に差を示しており、特にパフォーマンスの高いエージェントは、より高いアイデーションの多様性を示す傾向があることが明らかになった。さらに、アイデーションの多様性を制御した実験を実施し、多様性が高まることでパフォーマンスが向上することを実証した。最後に、MLE-benchの標準的なメダル評価に加え、他の評価指標を用いて検証することで、本研究の結論が他のパフォーマンス指標に対しても一貫して成り立つことを確認し、結果の信頼性を強化した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

エージェント

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

Alexis Audran-Reiss Jordi Armengol Estapé Karen Hambardzumyan Amar Budhiraja Martin Josifoski Edan Toledo Rishi Hazra Despoina Magka Michael Shvartsman Parth Pathak

概要

AI研究エージェントは、機械学習モデルの設計、実装および学習を自動化することで、科学的進歩の加速を約束している。しかし、この分野はまだ初期段階にあり、エージェントの行動経路が成功または失敗に至る要因については十分に理解されていない。本研究では、アイデーションの多様性がエージェントのパフォーマンスに果たす役割に注目する。まず、AI研究エージェントの評価に広く用いられるベンチマーク「MLE-bench」において、異なるモデルおよびエージェントスキャフォールド（エージェントの枠組み）に対するエージェントの行動経路を分析した。その結果、異なるモデルやエージェントスキャフォールドは、アイデーションの多様性に差を示しており、特にパフォーマンスの高いエージェントは、より高いアイデーションの多様性を示す傾向があることが明らかになった。さらに、アイデーションの多様性を制御した実験を実施し、多様性が高まることでパフォーマンスが向上することを実証した。最後に、MLE-benchの標準的なメダル評価に加え、他の評価指標を用いて検証することで、本研究の結論が他のパフォーマンス指標に対しても一貫して成り立つことを確認し、結果の信頼性を強化した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています