il y a 13 jours

Une étude de cas sur la programmation d'applications web avec des modèles de raisonnement OpenAI

Yi Cui

Résumé

Cette étude présente un cas d’analyse des tâches de codage effectuées par les derniers modèles de raisonnement d’OpenAI, à savoir o1-preview et o1-mini, en comparaison avec d’autres modèles de pointe. Les modèles o1 obtiennent des résultats SOTA (state-of-the-art) sur WebApp1K, un benchmark à tâche unique. À cet effet, nous introduisons WebApp1K-Duo, un benchmark plus exigeant dont le nombre de tâches et de cas de test est doublé. Ce nouveau benchmark entraîne une baisse significative des performances des modèles o1, qui se retrouvent alors en dessous de Claude 3.5. En outre, ces modèles échouent de manière systématique face à des cas de test atypiques mais corrects, un piège que les modèles non raisonnants parviennent parfois à éviter. Nous hypothisons que cette variabilité de performance provient d’une compréhension insuffisante des instructions. Plus précisément, le mécanisme de raisonnement améliore les performances lorsque toutes les attentes sont correctement comprises, mais amplifie les erreurs lorsque certaines attentes clés sont manquées, potentiellement en raison de la longueur des entrées. Par conséquent, nous soutenons que le succès en codage des modèles de raisonnement dépend d’un modèle de base de haute qualité ainsi que d’un fine-tuning supervisé (SFT) rigoureux, afin d’assurer une adhésion méticuleuse aux instructions.