13日前

OpenAI推論モデルを用いたWebアプリケーション開発の事例研究

Yi Cui
OpenAI推論モデルを用いたWebアプリケーション開発の事例研究
要約

本稿では、OpenAIが最新にリリースした推論モデルであるo1-previewおよびo1-miniについて、他の最先端モデルと比較したコーディングタスクにおけるケーススタディを提示する。o1シリーズモデルは、単一タスクベンチマークであるWebApp1Kにおいて、現在の最良(SOTA)の成果を達成している。しかし、その性能をさらに厳しく検証するために、タスク数およびテストケース数を倍増させたより困難なベンチマーク「WebApp1K-Duo」を導入した。この新たなベンチマークにおいて、o1モデルの性能は著しく低下し、Claude 3.5に後れを取る結果となった。さらに、非推論モデルがたまに回避できる「特異的だが正解である」テストケースに対して、o1モデルは一貫して失敗する傾向が見られた。我々は、この性能のばらつきが「指示の理解」の能力に起因すると仮説を立てている。具体的には、すべての期待される条件が正確に捉えられた場合には、推論メカニズムが性能を向上させる一方で、重要な期待が見逃された場合には誤りを悪化させる可能性がある。これは入力長の影響を受ける可能性も示唆される。したがって、推論モデルのコーディング成功は、優れたベースモデルおよび高精度のSFT(Supervised Fine-Tuning)の確保にかかっていると主張する。

OpenAI推論モデルを用いたWebアプリケーション開発の事例研究 | 最新論文 | HyperAI超神経