HyperAIHyperAI
vor 11 Tagen

Hierarchische Prompting-Taxonomie: Ein universeller Bewertungsrahmen für große Sprachmodelle

Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
Hierarchische Prompting-Taxonomie: Ein universeller Bewertungsrahmen für große Sprachmodelle
Abstract

Die Beurteilung der Wirksamkeit großer Sprachmodelle (LLMs) bei der Bewältigung vielfältiger Aufgaben ist entscheidend, um ihre Stärken und Schwächen besser zu verstehen. Traditionelle Evaluationsmethoden setzen typischerweise eine einzelne Prompt-Strategie ein, die gleichmäßig über alle Datensätze angewendet wird, ohne die unterschiedlichen Grade der Aufgabenkomplexität zu berücksichtigen. Wir stellen die Hierarchische Prompt-Taxonomie (HPT) vor, eine Taxonomie, die einen hierarchischen Prompt-Framework (HPF) nutzt, der aus fünf einzigartigen Prompt-Strategien besteht, die von der einfachsten bis zur komplexesten angeordnet sind. Dies ermöglicht eine präzisere Bewertung von LLMs und liefert ein klareres Bild der Leistungsfähigkeit. Diese Taxonomie weist Datensätzen sowie LLMs auf Basis der Regeln der Taxonomie eine Bewertung, den sogenannten Hierarchischen Prompt-Score (HP-Score), zu, wodurch ein differenziertes Verständnis ihrer Fähigkeit zur Lösung vielfältiger Aufgaben entsteht und ein universeller Maßstab für die Komplexität von Aufgaben bereitgestellt wird. Zudem führen wir den adaptiven hierarchischen Prompt-Framework ein, der die Auswahl geeigneter Prompt-Strategien für jede Aufgabe automatisiert. In dieser Studie werden manuelle und adaptive hierarchische Prompt-Frameworks anhand von vier instruktionsverfeinerten LLMs – Llama 3 8B, Phi 3 3,8B, Mistral 7B und Gemma 7B – an vier Datensätzen (BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) und SamSum) verglichen. Experimente belegen die Wirksamkeit der HPT und bieten eine zuverlässige Methode zur Vergleichbarkeit unterschiedlicher Aufgaben und der Leistungsfähigkeit von LLMs. Diese Arbeit legt den Grundstein für die Entwicklung eines universellen Evaluationsmaßstabs, der sowohl die Komplexität von Datensätzen als auch die Fähigkeiten von LLMs bewerten kann. Die Implementierung sowohl des manuellen HPF als auch des adaptiven HPF ist öffentlich verfügbar.

Hierarchische Prompting-Taxonomie: Ein universeller Bewertungsrahmen für große Sprachmodelle | Neueste Forschungsarbeiten | HyperAI