HyperAI超神経

AIベンチマークの公正性に疑問、Cohereら研究者がLM Arenaを批判 2024年11月、Cohere、スタンフォード大学、MIT、およびAI研究所の共同研究チームが、人気のクラウドソーシングAIベンチマー克プラットフォーム「Chatbot Arena」の運営組織LM Arenaに、大手AI企業への不公平な扱いがあると訴える論文を発表しました。この論文によると、LM ArenaはMeta、OpenAI、Google、Amazonといった業界トップ的企业に対して、未公開のAIモデルをプライベートにテストできる機会を提供した一方で、他の企業には同じ機会が与えられていなかったことが明らかになっています。研究チームは、2024年1月から3月までの間に、特にMetaがLlama 4の発売前に行われた27種類ものモデルバリアントのプライベートテストをLM Arenaから受けていることを見つけました。しかし、Metaはこれらのテストのうち最高のスコアを記録したモデルの結果のみを公表しました。これにより、他の参画企業がチャレンジする上で不利な立場に置かれていた可能性があります。 Chatbot Arenaは、2023年にUC Berkeleyの学術研究プロジェクトとして設立され、現在ではAI企業におけるベンチマークの一つとして広く利用されています。この平台では、異なるAIモデルの回答が横に並べて比較され、「対決」形式でユーザーに最良のモデルを選んでもらいます。投票結果は順位付けに反映され、模型の評価に影響を与える仕組みになっています。しかし、研究チームは、LM Arenaが一部のAI企業に優遇しているという証拠を280万回以上のモデル対決のデータから見つけ出しました。具体的には、Meta、OpenAI、Googleなどの企業のモデルがより多くの対決に参加し、この高いサンプリング率が彼らに不公平な利点を与えていたと主張しています。例えば、追加データを利用すると、Arena Hardという別のLM Arenaのベンチマークでは性能が112%向上することが示されています。これに対し、LM Arenaは直接的な相関関係がないと反論しています。 CohereのVP兼論文の共著者であるSara Hooker氏は、「僅かな数の企業だけがプライベートテストの機会を得ることができ、そのテスト量の差異は著しかった」と語ります。「これはまさにゲーム化だ」と同氏は指摘しています。 LM Arenaの共同創業者であるUC Berkeleyの教授Ion Stoica氏は、この研究が「誤解」と「疑わしい分析」に基づいていると反論し、公平性とコミュニティードリブンの評価を推進するために全モデラープロバイダーに参加を呼びかけています。同組織はまた、モデルのサンプリングレートを調整することでより公平な評価を保証すると表明しています。業界からの反応 Google DeepMindのプリンシパルリサーチャーArmand Joulin氏は、Xで投稿を行い、論文のいくつかの数値が正確ではないと指摘しました。彼はGoogleがLM Arenaに対して1つのGemma 3モデルのみをプレリリーステストで送ったと主張しています。これに対し、Hooker氏は訂正を行うことを確認しました。この論文は、MetaがLlama 4の発売前にChatbot Arenaのベンチマークを操作していたことが露見した直後の出来事です。Metaは特定のモデルを対話性に最適化することで高スコアを獲得しましたが、その最適化されたバージョンは公開されず、標準版の性能は大幅に下回りました。 LM Arenaは今年初め、企業を設立し投資家から資金調達を行う計画を発表しました。この論文は、私的ベンチマーク組織が会社の影響を受けずにAIモデルを公正に評価できるかについて、さらに严格的な監視を引き起こしています。研究者はLM Arenaに対して、プライベートテストの回数制限やそのテストスコアの公開などを提唱していますが、同組織はこれらが必要ないと主張しています。一方で、サンプリングレートに関する改善については開放的な姿勢を示しています。まとめ研究者はLM Arenaが大手AI企業に不公平な待遇を与えていると主張していますが、LM Arenaは透明性の一環として既に情報を公開していると反論。業界全体がAIベンチマークの公正性を求めている中、今後LM Arenaがどのような対策を講じるか注目されています。コメント Cohereの研究者たちは、AIの評価プラットフォームにおいて透明性と公平性が確保されるべきだと強く主張しています。一方、LM Arenaは既存の取り組みの正当性を訴げるも、研究者たちからの圧力に応え、さらなる改善を模索している様子です。AIの信頼性と客観性を高めるために、業界全体での議論が活発化することが期待されます。

関連リンク

関連リンク

関連リンク

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

Command Palette

関連リンク

Command Palette

関連リンク

Command Palette

関連リンク

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする