Domain-spezifisches Embedding-Modell in einem Tag erstellen
Allgemeine Embedding-Modelle erkennen zwar breite semantische Zusammenhänge, scheitern jedoch häufig an der feinkörnigen Unterscheidung spezifischer Fachbegriffe und Kontexte, wie sie in Verträgen oder Fertigungsprotokollen vorkommen. Dies führt oft zu mangelnder Leistung in Retrieval-Augmented-Generation (RAG)-Systemen. Um dieses Problem zu lösen, haben Experten ein Verfahren entwickelt, mit dem sich ein Domänen-spezifisches Embedding-Modell innerhalb von weniger als einem Tag mit nur einer einzigen GPU trainieren lässt, ohne dass manuelle Datenbeschriftung erforderlich ist. Das vorgestellte Framework integriert mehrere NVIDIA-Tools wie NeMo Data Designer zur Synthese von Trainingsdaten, NeMo Automodel für das Fine-Tuning und NVIDIA NIM für den produktiven Einsatz. Der Prozess beginnt mit der Erstellung von Trainingsdaten aus vorhandenen Dokumenten. Anstatt diese manuell zu labeln, nutzt das System ein großes Sprachmodell, um automatisch hochqualitative Frage-Antwort-Paare aus den Rohdokumenten zu generieren. Dabei entstehen unterschiedliche Komplexitätsgrade, von einfachen Faktenabfragen bis hin zu komplexen logischen Schlüssen, die mehrere Dokumente verknüpfen. Ein entscheidender Schritt für die Genauigkeit ist das sogenannte Hard Negative Mining. Während einfache Negativen (völlig irrelevante Texte) wenig zum Lernen beitragen, helfen Hard Negatives dem Modell, zwischen Texten zu unterscheiden, die dem korrekten Ergebnis sehr ähnlich sind, aber inhaltlich falsch liegen. Das System identifiziert diese schwierigen Fälle und integriert sie in den Trainingsprozess. Zudem ermöglicht das Framework die Verarbeitung von Multi-Hop-Fragen, bei denen die Antwort Informationen aus mehreren Dokumentabschnitten kombiniert. Durch das spezielle Training lernt das Modell, kontextuell relevante Passagen präzise zu verknüpfen, anstatt nur wortgleiche Begriffe zu matchen. Das Fine-Tuning erfolgt auf einem bi-Encoder-Modell, das mit Kontrastivem Lernen arbeitet. Die Hyperparameter sind so optimiert, dass selbst mit kleinen Datensätzen von weniger als 2.000 Beispielen ein Ergebnis erzielt werden kann, während größere Datensätze die Genauigkeit weiter steigern. Die Evaluierung anhand standardisierter Benchmarks zeigt signifikante Verbesserungen. In Tests mit einem synthetischen Datensatz aus öffentlichen NVIDIA-Dokumenten stieg der Recall@10 um über zehn Prozent. Auch bei der Realisierung für Atlassian, die das Modell auf einem JIRA-Datensatz trainierten, führte das Verfahren zu einer Steigerung des Recall@60 um 26 Prozent auf eine 95-Prozent-Marke, was die Suchrelevanz für Millionen von Nutzern erheblich verbessert. Der finale Schritt umfasst die Exportierung des Modells in performante Formate wie ONNX oder TensorRT und die Bereitstellung über einen NVIDIA NIM-Container. Dieser stellt eine Schnittstelle bereit, die kompatibel mit OpenAI-APIs ist, sodass bestehende RAG-Pipelines ohne Code-Änderungen eingesetzt werden können. Die gesamte Pipeline – von der Generierung der Daten bis zum produktiven Einsatz – lässt sich in wenigen Befehlen ausführen und benötigt für kleinere Datensätze oft nur wenige Stunden. Dieses Werkzeug ermöglicht Unternehmen somit einen schnellen und kosteneffizienten Weg, ihre Informationsbeschaffungssysteme an ihre spezifischen Fachgebiete anzupassen und die Ergebnisqualität deutlich zu steigern.
