HyperAIHyperAI
vor 13 Tagen

PECC: Problemextraktion und Codieraufgaben

Patrick Haller, Jonas Golde, Alan Akbik
PECC: Problemextraktion und Codieraufgaben
Abstract

Neuere Fortschritte bei großen Sprachmodellen (LLMs) haben deren außergewöhnliche Fähigkeiten bei einer Vielzahl von Aufgaben, wie Code-Generierung, Problemlösung und Schlussfolgerung, deutlich gemacht. Bestehende Benchmarks bewerten Aufgaben isoliert, doch der Grad, zu dem LLMs pro-saartige Aufgaben verstehen, die zugrundeliegenden Probleme identifizieren und anschließend geeignete Code-Lösungen generieren können, bleibt bisher unerforscht. Um diese Lücke zu schließen, stellen wir PECC vor – einen neuartigen Benchmark, der auf Herausforderungen aus Advent of Code (AoC) und Project Euler basiert und 2396 Aufgaben umfasst. Im Gegensatz zu herkömmlichen Benchmarks erfordert PECC von LLMs die Interpretation narrativer, in Text eingebetteter Probleme, die Extraktion von Anforderungen und die Generierung ausführbaren Codes. Ein zentrales Merkmal unseres Datensatzes ist die durch natürliche Sprache gesteuerte Anfrageform in chatbasierten Evaluierungen, die die Ambiguitäten realer Anweisungen nachahmt. Die Ergebnisse zeigen unterschiedliche Leistungen von Modellen bei narrativen und neutralen Aufgaben, wobei speziell die mathematikbasierte Teilmenge von Project Euler erhebliche Schwierigkeiten bereitet: GPT-3.5-Turbo löst 50 % der AoC-Aufgaben, aber nur 8 % der Euler-Aufgaben. Durch die Untersuchung der Grenzen der Fähigkeiten von LLMs bietet unser Benchmark ein Rahmenwerk zur Überwachung und Bewertung der zukünftigen Entwicklung von LLMs als universelle Problemlöser.

PECC: Problemextraktion und Codieraufgaben | Neueste Forschungsarbeiten | HyperAI