CriSPO: Mehrfach-aspektbasierte Kritik-Vorschlag-gesteuerte automatische Prompt-Optimierung für Textgenerierung

Bestehende automatische Methoden zur Prompt-Ingenieurarbeit sind in der Regel für diskriminative Aufgaben konzipiert, bei denen neue Task-Prompts mit begrenztem Feedback aus einem einzelnen Metrik, die einen einzigen Aspekt widerspiegelt, iterativ verfeinert werden. Diese Ansätze sind jedoch für generative Aufgaben suboptimal, die eine feinsinnigere Anleitung über eine einzelne numerische Metrik hinaus erfordern, um den Prompt zu verbessern und mehrere Aspekte des generierten Textes zu optimieren. Um diese Herausforderungen zu bewältigen, schlagen wir einen neuen Ansatz namens multi-aspektbasierte Kritik-Vorschlag-gesteuerte automatische Prompt-Optimierung (CriSPO) vor. CriSPO führt ein Kritik-Vorschlag-Modul als zentrales Element ein. Dieses Modul entdeckt spontan Aspekte und vergleicht generierte und Referenztexte in Bezug auf diese Aspekte, wobei es konkrete Vorschläge für die Modifikation des Prompts liefert. Diese klaren Kritiken und handlungsfähigen Vorschläge leiten ein empfängliches Optimierungsmodul an, das tiefgreifendere Änderungen vornimmt und einen breiteren und effektiveren Suchraum erkundet. Um CriSPO weiterhin durch Mehrfachmetrik-Optimierung zu verbessern, führen wir eine Erweiterung namens Automatisches Suffix-Tuning (AST) ein, um die Leistung von Task-Prompts bei mehreren Metriken zu steigern. Wir evaluieren CriSPO anhand von 4 state-of-the-art LLMs (Large Language Models) auf 4 Zusammenfassungs- und 5 QA-Datensätzen (Question Answering). Ausführliche Experimente zeigen eine Verbesserung der ROUGE-Werte um 3-4 % bei der Zusammenfassung sowie erhebliche Verbesserungen verschiedener Metriken bei der Frage-Antwort-Erstellung. Der Quellcode ist unter https://github.com/amazon-science/crispo verfügbar.