HyperAIHyperAI

Command Palette

Search for a command to run...

AIベンチマークの歪みに警鐘 Surge AICEO、「AIスロップ」に走る業界に憂慮

Surge AIのCEO、エドウィン・チェン氏は、AI開発の現場で「AIスロップ(無意味な出力)」の追求が進むことへの懸念を表明した。彼は、AIの開発が「がんの治療や貧困の解消、宇宙の本質理解」といった人類の根本的課題に貢献するのではなく、一時的なインパクトや目立つ応答を重視する方向に偏っていると指摘した。 「AIの進化が人類の進歩につながるのではなく、単にドーパミンを刺激するような出力に最適化されている。まるで、雑誌の見出しを追いかける人々に迎合しているようなものだ」と語った。 チェン氏は、この傾向の背景に、業界の評価基準である「リーダーボード」の問題があると分析。特に人気のあるLMArenaというオンラインランキングについて、「人々は応答を2秒ほどスキャンして、見た目が派手な方を選ぶ。真に正確か、根拠があるかは無視されている」と批判。 「これは、雑誌の表紙を気にして選ぶ人向けのAIを育てているに等しい」と断言。 こうしたリーダーボードは、AIラボが営業や投資の場で実績を示すために無視できない存在であるため、企業は結果を「見せかけ」で良くするための戦略的対応を強いられることも少なくない。 同様の懸念は、研究者間でも広がっている。AIセキュリティ企業ZeroPathの共同CEO、ディーン・バレンタイン氏は、2024年6月以降のAIモデルの進化は「ほとんどが無意味な進歩」と断じ、自社のベンチマークで「顕著な改善」は確認できなかったと報告。 「会話は楽になったかもしれないが、経済的価値や汎用性の観点では進歩が見られない」と指摘。 欧州委員会の共同研究センターが2024年2月に発表した論文も、AIベンチマークが「文化的・商業的・競争的動機」によって歪められ、社会的課題を無視する傾向にあると警告。 さらに、メタがLlama 4 Maverickをリリースした際、ベンチマークに特化したカスタムバージョンを用いて「結果を良く見せた」との批判が相次いだ。LMArenaは、メタの対応が「ポリシーの意図と一致しない」と指摘。 チェン氏の警告は、AI開発の本質が「真の価値の創出」にあるべきという、技術の社会的責任を問う重要な声である。

関連リンク

AIベンチマークの歪みに警鐘 Surge AICEO、「AIスロップ」に走る業界に憂慮 | 人気の記事 | HyperAI超神経