HyperAIHyperAI

Command Palette

Search for a command to run...

Ein Fallstudie zur Web-App-Entwicklung mit OpenAI-Reasoning-Modellen

Yi Cui

Zusammenfassung

Diese Arbeit präsentiert eine Fallstudie zu Codieraufgaben, die von den neuesten Reasoning-Modellen von OpenAI, nämlich o1-preview und o1-mini, im Vergleich zu anderen führenden Modellen durchgeführt wurden. Die o1-Modelle erzielen Zustand-des-Kunst-(SOTA)-Ergebnisse auf WebApp1K, einem Einzel-Aufgaben-Benchmark. Dazu führen wir WebApp1K-Duo ein, einen anspruchsvolleren Benchmark, dessen Anzahl an Aufgaben und Testfällen verdoppelt wurde. Der neue Benchmark führt zu einer erheblichen Leistungseinbuße bei den o1-Modellen, sodass diese nun hinter Claude 3.5 zurückfallen. Zudem scheitern sie konsistent bei typischen, jedoch ungewöhnlichen korrekten Testfällen – einer Falle, der nicht-Reasoning-Modelle gelegentlich entgehen. Wir vermuten, dass die Leistungsvariabilität auf eine unzureichende Instruktionserfassung zurückzuführen ist. Insbesondere verstärkt der Reasoning-Mechanismus die Leistung, wenn alle Erwartungen erfasst werden, während er Fehler verschärft, wenn zentrale Erwartungen fehlen, was möglicherweise durch die Eingabedauer beeinflusst wird. Daher argumentieren wir, dass der Erfolg von Reasoning-Modellen bei Codieraufgaben entscheidend von einem hochwertigen Basismodell und einer sorgfältigen Supervised Fine-Tuning-(SFT)-Phase abhängt, um eine präzise Einhaltung der Instruktionen sicherzustellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein Fallstudie zur Web-App-Entwicklung mit OpenAI-Reasoning-Modellen | Paper | HyperAI