vor 13 Tagen

Ein Fallstudie zur Web-App-Entwicklung mit OpenAI-Reasoning-Modellen

Yi Cui

Abstract

Diese Arbeit präsentiert eine Fallstudie zu Codieraufgaben, die von den neuesten Reasoning-Modellen von OpenAI, nämlich o1-preview und o1-mini, im Vergleich zu anderen führenden Modellen durchgeführt wurden. Die o1-Modelle erzielen Zustand-des-Kunst-(SOTA)-Ergebnisse auf WebApp1K, einem Einzel-Aufgaben-Benchmark. Dazu führen wir WebApp1K-Duo ein, einen anspruchsvolleren Benchmark, dessen Anzahl an Aufgaben und Testfällen verdoppelt wurde. Der neue Benchmark führt zu einer erheblichen Leistungseinbuße bei den o1-Modellen, sodass diese nun hinter Claude 3.5 zurückfallen. Zudem scheitern sie konsistent bei typischen, jedoch ungewöhnlichen korrekten Testfällen – einer Falle, der nicht-Reasoning-Modelle gelegentlich entgehen. Wir vermuten, dass die Leistungsvariabilität auf eine unzureichende Instruktionserfassung zurückzuführen ist. Insbesondere verstärkt der Reasoning-Mechanismus die Leistung, wenn alle Erwartungen erfasst werden, während er Fehler verschärft, wenn zentrale Erwartungen fehlen, was möglicherweise durch die Eingabedauer beeinflusst wird. Daher argumentieren wir, dass der Erfolg von Reasoning-Modellen bei Codieraufgaben entscheidend von einem hochwertigen Basismodell und einer sorgfältigen Supervised Fine-Tuning-(SFT)-Phase abhängt, um eine präzise Einhaltung der Instruktionen sicherzustellen.