HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Verbesserung des Sprachverstehens in sprachbewussten Sprachmodellen mit GRPO

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

Verbesserung des Sprachverstehens in sprachbewussten Sprachmodellen mit GRPO

Abstract

In diesem Artikel stellen wir eine auf Group Relative Policy Optimization (GRPO) basierende Methode zur Ausbildung von speech-aware großen Sprachmodellen (SALLM) für offene Aufgaben im Bereich der Sprachverstehens (open-format speech understanding tasks) vor, wie beispielsweise gesprochene Fragebeantwortung (Spoken Question Answering) und automatische Sprachübersetzung (Automatic Speech Translation). SALLM haben sich bei Aufgaben im Bereich des Sprachverstehens als äußerst effektiv erwiesen. GRPO hat in letzter Zeit aufgrund seiner Effizienz bei der Ausbildung großer Sprachmodelle (LLM) an Bedeutung gewonnen, und frühere Arbeiten haben bereits dessen Anwendung auf SALLM untersucht, vorwiegend in Aufgaben mit mehreren Antwortmöglichkeiten. Aufbauend darauf konzentrieren wir uns nun auf offene Aufgabenformate, die die generativen Fähigkeiten der Modelle besser widerspiegeln. Unser Ansatz nutzt GRPO mit BLEU als Belohnungssignal zur Optimierung von SALLM und zeigen empirisch, dass er sich gegenüber der herkömmlichen Supervised Fine-Tuning (SFT) in mehreren zentralen Metriken deutlich übertrifft. Schließlich untersuchen wir das Potenzial der Integration von off-policy-Proben innerhalb des GRPO-Verfahrens für diese Aufgaben und weisen auf weitere Verbesserungsmöglichkeiten sowie Forschungsfelder hin.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserung des Sprachverstehens in sprachbewussten Sprachmodellen mit GRPO | Forschungsarbeiten | HyperAI