HyperAIHyperAI

Command Palette

Search for a command to run...

Google、多様なAIモデルの比較を容易にするオープンソースフレームワークLMEvalをリリース Googleが新しいオープンソースフレームワーク「LMEval」を公開しました。このツールは、異なる企業が開発した大規模言語モデルとマルチモーダルモデルの評価を標準化し、安全性分析を効率化することを目指しています。LMEvalは、テキストだけでなく画像やコードの評価もサポートし、一貫したプロセスで様々なモデルを比較可能にします。また、新たに追加されたテストやモデルに対してのみ必要な部分だけを実行する「インクリメンタル評価」機能により、時間と計算コストの削減を実現しています。GitHubではソースコードとサンプルノートブックが利用可能です。

Google、多様なAIモデルの評価標準化を目指すオープンソースフレームワーク LMEval をリリース GoogleはLMEvalというオープンソースフレームワークを発表しました。このツールは、異なる企業が開発した大規模言語モデルとマルチモーダルモデルを比較やすくするためのもので、研究者や開発者が一贯した評価プロセスを効率的に利用できます。 評価標準化と安全性分析の強化 今まで、新しいAIモデルの比較は、各プロバイダーが独自のAPI、データ形式、ベンチマーク設定を使用しているため、複雑で時間がかかっていました。LMEvalはこれらの問題を解決するため、ベンチマークを簡単にセットアップし、サポートされている任意のモデルを速やかに評価できるようにしています。 LMEvalはテキストだけでなく、画像やコードのベンチマークにも対応しています。また、システムは「回避戦略」—— 問題のあるあるいはリスクの高いコンテンツを生成するために意識的に遠回しの回答をする手法 —— を検出する機能も備えています。これは特に安全性分析において重要な役割を果たします。例えば、Giskardの安全性スコアは、AIモデルが有害な CONTENTをどれだけ避けることができるかを示しており、高い数字ほど安全であることを意味します。 すべてのテスト結果は、自己暗号化 SQLite データベースに保存されます。これにより、結果はローカルでアクセス可能になりますが、検索エンジンにインデックスされることはありません。 クロスプラットフォーム対応 LMEvalはLiteLLMフレームワークに基づいて動きます。LiteLLMは、Google、OpenAI、Anthropic、Ollama、Hugging Faceなどのプロバイダー間のAPIの違いを吸収するため、同じテストを複数のプラットフォームで実行する際にコードの書き換えを必要としません。 特筆すべき機能の一つは「インクリメンタル評価」です。新規モデルや質問が追加されても、LMEvalは必要な追加テストのみを行います。これにより時間と計算コストの削減が可能です。さらに、システムはマルチスレッディングエンジンを使用することで、並列計算を高速化します。 評価結果のビジュアライゼーション Googleは、評価結果を分析するためのビジュアライゼーションツール「LMEvalboard」を提供しています。このダッシュボードでは、モデルのパフォーマンスを異なるカテゴリでのラダーチャートで表示でき、ユーザーは個々のモデルの詳細な結果を確認することができます。 LMEvalboardでは、特定のタスクに焦点を当てるズームインビューが可能で、モデルがどこで失敗したのかを特定できます。また、モデル間の直接比較も可能で、各質問における差異をグラフィカルに表示できます。 LMEvalのソースコードとサンプルノートブックはGitHub上で公開されています。これにより、研究者のみならず、広範な技術系コミュニティーが利用し、改良していくことが期待されています。

関連リンク