vor 16 Tagen

RecallM: Ein anpassungsfähiges Speichermekanismus mit zeitlichem Verständnis für große Sprachmodelle

Brandon Kynoch, Hugo Latapie, Dwane van der Sluis

Abstract

Große Sprachmodelle (Large Language Models, LLMs) haben in der Forschungsbereich der künstlichen Intelligenz außergewöhnliche Fortschritte erzielt und zeigen bemerkenswerte Fähigkeiten bei einer Vielzahl von Aufgaben und Anwendungsbereichen. Doch im Zuge unserer Annäherung an die Entwicklung von künstlicher allgemeiner Intelligenz (Artificial General Intelligence, AGI) erkennen wir die Notwendigkeit, LLMs durch eine Langzeitgedächtnisfunktion zu ergänzen, um die Beschränkungen des Kontextfensters zu überwinden und insbesondere eine Grundlage für nachhaltiges Schlussfolgern, kumulatives Lernen und langfristige Benutzerinteraktionen zu schaffen. In diesem Paper stellen wir RecallM vor – eine neuartige Architektur, die LLMs eine anpassbare und aktualisierbare Langzeitgedächtnisfunktion ermöglicht. Im Gegensatz zu früheren Ansätzen ist die RecallM-Architektur besonders effektiv bei der Aktualisierung von Überzeugungen und der Aufrechterhaltung eines zeitlichen Verständnisses der bereitgestellten Wissensinhalte. Wir belegen die Wirksamkeit dieser Architektur durch verschiedene Experimente. Zudem zeigen unsere eigenen Experimente zum zeitlichen Verständnis und zur Überzeugungsaktualisierung, dass RecallM gegenüber der Verwendung einer Vektor-Datenbank zur Aktualisierung zuvor im Langzeitgedächtnis gespeicherter Kenntnisse viermal effektiver ist. Außerdem demonstrieren wir, dass RecallM wettbewerbsfähige Leistung bei allgemeinen Frage-Antwort-Aufgaben sowie Aufgaben des Lernens im Kontext (in-context learning) erzielt.