HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung des Sprachverstehens in sprachbewussten Sprachmodellen mit GRPO

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

Zusammenfassung

In diesem Artikel stellen wir eine auf Group Relative Policy Optimization (GRPO) basierende Methode zur Ausbildung von speech-aware großen Sprachmodellen (SALLM) für offene Aufgaben im Bereich der Sprachverstehens (open-format speech understanding tasks) vor, wie beispielsweise gesprochene Fragebeantwortung (Spoken Question Answering) und automatische Sprachübersetzung (Automatic Speech Translation). SALLM haben sich bei Aufgaben im Bereich des Sprachverstehens als äußerst effektiv erwiesen. GRPO hat in letzter Zeit aufgrund seiner Effizienz bei der Ausbildung großer Sprachmodelle (LLM) an Bedeutung gewonnen, und frühere Arbeiten haben bereits dessen Anwendung auf SALLM untersucht, vorwiegend in Aufgaben mit mehreren Antwortmöglichkeiten. Aufbauend darauf konzentrieren wir uns nun auf offene Aufgabenformate, die die generativen Fähigkeiten der Modelle besser widerspiegeln. Unser Ansatz nutzt GRPO mit BLEU als Belohnungssignal zur Optimierung von SALLM und zeigen empirisch, dass er sich gegenüber der herkömmlichen Supervised Fine-Tuning (SFT) in mehreren zentralen Metriken deutlich übertrifft. Schließlich untersuchen wir das Potenzial der Integration von off-policy-Proben innerhalb des GRPO-Verfahrens für diese Aufgaben und weisen auf weitere Verbesserungsmöglichkeiten sowie Forschungsfelder hin.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp