HyperAIHyperAI
vor 17 Tagen

Search-in-the-Chain: Interaktiv verbesserte Großsprachmodelle durch Suche für wissensintensive Aufgaben

Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng, Tat-Seng Chua
Search-in-the-Chain: Interaktiv verbesserte Großsprachmodelle durch Suche für wissensintensive Aufgaben
Abstract

Die Gewährleistung von Genauigkeit, Glaubwürdigkeit und Nachvollziehbarkeit von Inhalten, die von großen Sprachmodellen (Large Language Models, LLM) generiert werden, ist entscheidend, insbesondere bei komplexen, wissensintensiven Aufgaben, die mehrstufige Schlussfolgerungen erfordern, bei denen jeder Schritt über spezifisches Wissen verfügen muss. Die retrieval-augmentierte Generierung bietet hierbei ein großes Potenzial zur Lösung dieses Problems. Allerdings stellt sich die Frage, wo und wie Information Retrieval (IR) in das LLM integriert werden sollte – eine große Herausforderung. Bisherige Ansätze leiden unter dem Problem, dass durch IR falsch abgerufene Informationen das LLM irreleiten und dass die Interaktion zwischen IR und LLM die logische Schlussfolgerungskette des LLM unterbricht. In dieser Arbeit wird ein neuartiger Rahmen namens \textbf{Search-in-the-Chain} (SearChain) vorgestellt, um die Interaktion zwischen LLM und IR zu optimieren und diese Herausforderungen zu bewältigen. Zunächst generiert das LLM eine Schlussfolgerungskette, die als Chain-of-Query (CoQ) bezeichnet wird, wobei jeder Knoten ein Paar aus IR-orientierter Abfrage und Antwort darstellt. Anschließend überprüft das IR die Antwort jedes Knotens der CoQ. Wenn das IR eine hohe Konfidenz aufweist, korrigiert es Antworten, die nicht mit den abgerufenen Informationen übereinstimmen, was die Glaubwürdigkeit erhöht. Darüber hinaus kann das LLM in der CoQ fehlendes Wissen identifizieren und auf das IR verweisen, um dieses Wissen bereitzustellen. Diese Mechanismen verbessern sowohl die Genauigkeit der Schlussfolgerung als auch die Wissensbasis. Schließlich generiert SearChain den gesamten Schlussfolgerungsprozess und markiert für jeden Schlusschritt die entsprechenden Quellen, was die Nachvollziehbarkeit erhöht. Die Interaktion mit dem IR in SearChain bildet einen neuartigen Schlussfolgerungspfad auf der Grundlage eines Baums, der es dem LLM ermöglicht, die Richtung der Schlussfolgerung dynamisch anzupassen. Experimente zeigen, dass SearChain gegenüber aktuellen Spitzenmethoden bei komplexen, wissensintensiven Aufgaben – einschließlich Multi-Hop-Fragen und Antworten, Slot-Filling, Faktenüberprüfung sowie langformiger Fragebeantwortung – überlegen ist.