SSRL: Selbstsuchende Verstärkungslernverfahren

Wir untersuchen das Potenzial großer Sprachmodelle (Large Language Models, LLMs), als effiziente Simulatoren für agente-basierte Suchaufgaben im Rahmen von Verstärkungslernen (Reinforcement Learning, RL) zu dienen, wodurch die Abhängigkeit von kostspieligen Interaktionen mit externen Suchmaschinen verringert werden kann. Dazu quantifizieren wir zunächst die inhärente Suchfähigkeit von LLMs mittels strukturierter Prompting-Techniken und wiederholter Stichprobenauswahl, die wir „Self-Search“ nennen. Unsere Ergebnisse zeigen, dass LLMs eine starke Skalierungseigenschaft bezüglich des Inferenzbudgets aufweisen und hohe Pass@k-Werte auf Frage-Antwort-Benchmark-Aufgaben erreichen, darunter auch die anspruchsvolle BrowseComp-Aufgabe. Aufbauend auf diesen Beobachtungen führen wir Self-Search RL (SSRL) ein, das die Self-Search-Fähigkeit von LLMs durch formatbasierte und regelbasierte Belohnungen verbessert. SSRL ermöglicht es den Modellen, ihre Wissensnutzung iterativ intern zu verfeinern, ohne Zugriff auf externe Werkzeuge zu benötigen. Empirische Evaluierungen belegen, dass SSRL-geschulte Policy-Modelle eine kosteneffiziente und stabile Umgebung für die Such-getriebene RL-Trainingsprozesse darstellen, die Abhängigkeit von externen Suchmaschinen reduzieren und einen robusten Sim-to-Real-Übertragungsprozess fördern. Wir ziehen folgende Schlussfolgerungen: 1) LLMs verfügen über Weltwissen, das effektiv abgerufen werden kann, um hohe Leistung zu erzielen; 2) SSRL zeigt das Potenzial, internes Wissen zu nutzen, um Halluzinationen zu reduzieren; 3) SSRL-geschulte Modelle lassen sich nahtlos mit externen Suchmaschinen integrieren, ohne zusätzlichen Aufwand. Unsere Erkenntnisse unterstreichen das Potenzial von LLMs, eine skalierbarere Ausbildung von RL-Agenten zu unterstützen.