HyperAIHyperAI

Command Palette

Search for a command to run...

SSRL: Selbstsuchende Verstärkungslernverfahren

Zusammenfassung

Wir untersuchen das Potenzial großer Sprachmodelle (Large Language Models, LLMs), als effiziente Simulatoren für agente-basierte Suchaufgaben im Rahmen von Verstärkungslernen (Reinforcement Learning, RL) zu dienen, wodurch die Abhängigkeit von kostspieligen Interaktionen mit externen Suchmaschinen verringert werden kann. Dazu quantifizieren wir zunächst die inhärente Suchfähigkeit von LLMs mittels strukturierter Prompting-Techniken und wiederholter Stichprobenauswahl, die wir „Self-Search“ nennen. Unsere Ergebnisse zeigen, dass LLMs eine starke Skalierungseigenschaft bezüglich des Inferenzbudgets aufweisen und hohe Pass@k-Werte auf Frage-Antwort-Benchmark-Aufgaben erreichen, darunter auch die anspruchsvolle BrowseComp-Aufgabe. Aufbauend auf diesen Beobachtungen führen wir Self-Search RL (SSRL) ein, das die Self-Search-Fähigkeit von LLMs durch formatbasierte und regelbasierte Belohnungen verbessert. SSRL ermöglicht es den Modellen, ihre Wissensnutzung iterativ intern zu verfeinern, ohne Zugriff auf externe Werkzeuge zu benötigen. Empirische Evaluierungen belegen, dass SSRL-geschulte Policy-Modelle eine kosteneffiziente und stabile Umgebung für die Such-getriebene RL-Trainingsprozesse darstellen, die Abhängigkeit von externen Suchmaschinen reduzieren und einen robusten Sim-to-Real-Übertragungsprozess fördern. Wir ziehen folgende Schlussfolgerungen: 1) LLMs verfügen über Weltwissen, das effektiv abgerufen werden kann, um hohe Leistung zu erzielen; 2) SSRL zeigt das Potenzial, internes Wissen zu nutzen, um Halluzinationen zu reduzieren; 3) SSRL-geschulte Modelle lassen sich nahtlos mit externen Suchmaschinen integrieren, ohne zusätzlichen Aufwand. Unsere Erkenntnisse unterstreichen das Potenzial von LLMs, eine skalierbarere Ausbildung von RL-Agenten zu unterstützen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp