Command Palette
Search for a command to run...
LMEnt: Eine Suite zur Analyse von Wissen in Sprachmodellen von der Vortrainingsdaten bis zu Darstellungen
Daniela Gottesman Alon Gilae-Dotan Ido Cohen Yoav Gur-Arieh Marius Mosbach Ori Yoran Mor Geva

Abstract
Sprachmodelle (LMs) treiben zunehmend Anwendungen in der realen Welt an, die über Weltwissen verfügen müssen. Die internen Prozesse, durch die Modelle Daten in Repräsentationen von Wissen und Überzeugungen über die Welt umwandeln, sind jedoch bisher nur unzureichend verstanden. Ein besseres Verständnis dieser Prozesse könnte den Weg für die Entwicklung von LMs mit konsistenteren, robusteren und vollständigeren Wissensrepräsentationen ebnen. Um die Untersuchung dieser Fragen zu erleichtern, präsentieren wir LMEnt, eine Werkzeugsuite zur Analyse des Wissenserwerbs in LMs während des Vortrainings. LMEnt führt folgende Komponenten ein: (1) eine wissensreiche Vortrainings-Korpus, vollständig mit Entitätsmentionen annotiert, basierend auf Wikipedia; (2) eine entitätsbasierte Retrieval-Methode für Vortrainingsdaten, die die Leistung früherer Ansätze um bis zu 80,4 % übertrifft; und (3) 12 vortrainierte Modelle mit bis zu 1 Milliarde Parametern und 4.000 Zwischen-Checkpoint-Iterationen, die auf Wissensbenchmark-Tests vergleichbare Leistung wie etablierte Open-Source-Modelle erzielen. Zusammen bieten diese Ressourcen eine kontrollierte Umgebung zur Analyse der Beziehungen zwischen Entitätsmentionen im Vortrainingsprozess und der Leistung in nachgeschalteten Aufgaben sowie der Wirkung kausaler Interventionen in den Vortrainingsdaten. Wir demonstrieren die Nützlichkeit von LMEnt anhand einer Studie zum Wissenserwerb über verschiedene Checkpoints hinweg und zeigen, dass die Häufigkeit von Fakten entscheidend ist, jedoch die Lerntrends nicht vollständig erklären kann. Wir stellen LMEnt zur Verfügung, um Forschungen zum Wissen in LMs zu unterstützen – darunter Wissensrepräsentation, Plastizität, Editierung, Zuschreibung und Lerndynamik.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.