HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Anfachen kreativen Schreibens in kleinen Sprachmodellen: LLM-as-a-Judge im Vergleich zu mehragentenbasierten verfeinerten Belohnungen

Xiaolong Wei Bo Lu Xingyu Zhang Zhejun Zhao Dongdong Shen Long Xia Dawei Yin

Anfachen kreativen Schreibens in kleinen Sprachmodellen: LLM-as-a-Judge im Vergleich zu mehragentenbasierten verfeinerten Belohnungen

Abstract

Große Sprachmodelle (Large Language Models, LLMs) haben beachtliche Fähigkeiten im kreativen Schreiben demonstriert, doch ihre erheblichen rechnerischen Anforderungen behindern eine breite Anwendung. Die Verbesserung kleiner Sprachmodelle (Small Language Models, SLMs) bietet eine vielversprechende Alternative, doch aktuelle Ansätze wie Supervised Fine-Tuning (SFT) leiden unter mangelnder Originalität, während die Reinforcement-Learning-basierte Feedback-Methodik aus menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) kostspielig ist. In diesem Artikel untersuchen wir zwei unterschiedliche, künstliche Intelligenz-gestützte Belohnungsstrategien innerhalb eines Reinforcement-Learning-From-AI-Feedback (RLAIF)-Rahmens, um die kreativen Schreibfähigkeiten eines SLM mit 7 Milliarden Parametern zu fördern – speziell für die Erzeugung chinesischer Grüße. Die erste Strategie nutzt ein Bewertungsmodell (Reward Model, RM), das auf hochwertigen Präferenzdaten trainiert wurde, die mittels eines neuartigen Multi-Agenten-Abweisungs-Sampling-Frameworks für kreative Aufgaben generiert wurden. Die zweite, innovativere Strategie setzt ein prinzipienbasiertes LLM als Urteilssprecher ein, dessen Belohnungsfunktion über ein adversarisch trainiertes Schema mit einer Reflexionsmechanik optimiert wird, um direkt Belohnungssignale zu liefern. Umfassende Experimente zeigen, dass beide Ansätze die kreative Leistung im Vergleich zu Baselines erheblich steigern, wobei jedoch das prinzipienbasierte LLM als Urteilssprecher eine deutlich bessere Generationsqualität erzielt. Zudem bietet es signifikante Vorteile hinsichtlich der Trainingseffizienz und reduziert die Abhängigkeit von menschlich annotierten Daten, was einen skalierbareren und effektiveren Weg hin zu kreativen SLMs darstellt. Unsere automatisierten Evaluationsmethoden zeigen zudem eine starke Übereinstimmung mit menschlichen Beurteilungen. Der Quellcode und die Daten sind öffentlich unter folgender URL verfügbar: [https://...].

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Anfachen kreativen Schreibens in kleinen Sprachmodellen: LLM-as-a-Judge im Vergleich zu mehragentenbasierten verfeinerten Belohnungen | Forschungsarbeiten | HyperAI