GoogleのGemini 2.5 Flashが発表した「Nano Banana」がLMArenaでトップに – 300万人超が参加するAIモデル対決プラットフォームの今
AIモデルの性能をユーザーが直接比較・評価できるプラットフォーム「LMArena」のCTO、Wei-Lin Chiang氏が、AI開発の現状と今後の課題について語った。LMArenaは2023年、カリフォルニア大学バークレー校の研究者らが立ち上げた「Chatbot Arena」として始まり、ユーザーが異なるAIモデルに同じプロンプトを投げかけ、どちらが優れているかを投票する仕組みで、リアルな使用状況に基づいた評価を可能にしている。現在、月間300万人以上のユーザーが利用しており、特に2024年8月にGoogleのGemini 2.5 Flash(通称「Nano Banana」)が登場した際には、画像生成と編集分野で急成長し、一時的にトップに躍り出た。 Chiang氏によると、LMArenaの目的は「開発者やユーザーが自らAIの性能を検証し、意見を共有するオープンな場」を提供すること。GoogleやMeta、OpenAIといった大手企業も、自社モデルの実際の評価を受けるためにプラットフォームに参加しており、ユーザー投票に基づく順位や詳細な分析レポートを提供されている。また、LMArenaは収集したデータの一部を公開しており、研究コミュニティが活用できるよう設計されている。 現在、コード生成ではClaude、創造的文書作成ではGeminiがトップに位置している。視覚処理や画像生成分野でもGeminiやGPTシリーズが優れた成績を収めている。一方、Metaが新設したスーパーアイテルジェンスラボでは「オムニモデル」の開発が進められており、Chiang氏は「複数のモダリティ(テキスト、画像、音声など)を統合した一つのモデル」が開発されていると予想している。 また、MITの調査で「多くの企業がAI投資に成果を上げていない」との報告があることに対し、Chiang氏は「AIの価値は実際の業務現場でどれだけ効率を高められるかにかかっている」と指摘。LMArenaでは「WebDev」という新しいベンチマークを導入し、AIが実際にウェブサイトを構築できるかを評価。医療、法務、教育などの専門分野でもAIの限界が顕在化する可能性があるため、今後はこうした分野のデータ分析を強化する予定だ。 LMArenaは、AIの進化を「ユーザーと実際の使い勝手」から見つめ直す、重要なフィードバックループの役割を果たしている。