Resources - LLM-as-a-Judgeの評価：MT-BenchとChatbot Arenaを用いて | 記事 | HyperAI超神経

HyperAI

メイン

GPU

コンソール
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers
LLM-as-a-Judgeの評価：MT-BenchとChatbot Arenaを用いて

8ヶ月前

ベンチマーク

Preference Modeling

概要論文ベンチマークリソース

opengvlab/multi-modality-arena561

pytorch

lm-sys/routellm4.8k

pytorch

formulamonks/llm-benchmarker-suite49

pytorch

ojiyumm/mt_bench_rwkv0

pytorch

lm-sys/fastchat39.5k

公式

pytorch

ilyagusev/ping_pong_bench117

theoremone/llm-benchmarker-suite49

pytorch

PAIR-code/llm-comparator526

tf

kuk/rulm-sbs261

dongping-chen/mllm-as-a-judge92

pytorch

bjoernpl/fasteval1

人工知能の未来を築く

概要

当社についてデータセットのヘルプ

製品

ニュースノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers
LLM-as-a-Judgeの評価：MT-BenchとChatbot Arenaを用いて

8ヶ月前

ベンチマーク

Preference Modeling

概要論文ベンチマークリソース

opengvlab/multi-modality-arena561

pytorch

lm-sys/routellm4.8k

pytorch

formulamonks/llm-benchmarker-suite49

pytorch

ojiyumm/mt_bench_rwkv0

pytorch

lm-sys/fastchat39.5k

公式

pytorch

ilyagusev/ping_pong_bench117

theoremone/llm-benchmarker-suite49

pytorch

PAIR-code/llm-comparator526

tf

kuk/rulm-sbs261

dongping-chen/mllm-as-a-judge92

pytorch

bjoernpl/fasteval1

人工知能の未来を築く

概要

当社についてデータセットのヘルプ

製品

ニュースノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)