Command Palette
Search for a command to run...
Theoretische Grenzen der auf Einbettungen basierenden Suche
Orion Weller Michael Boratko Iftekhar Naim Jinhyuk Lee

Abstract
Vektor-Embeddings wurden im Laufe der Jahre immer weiteren Retrieval-Aufgaben zugeordnet, wobei sich eine zunehmende Nutzung für kognitive Aufgaben wie Schlussfolgern, Anweisungsfolgen, Programmierung und weitere Bereiche abzeichnet. Diese neuen Benchmark-Datenbanken fordern von Embeddings, für beliebige Abfragen und beliebige Relevanzkonzepte geeignet zu sein. Obwohl frühere Arbeiten theoretische Grenzen von Vektor-Embeddings aufgezeigt haben, besteht eine verbreitete Annahme, dass diese Schwierigkeiten ausschließlich auf unrealistische Abfragen zurückzuführen sind und durch bessere Trainingsdaten sowie größere Modelle überwunden werden können. In dieser Arbeit zeigen wir, dass diese theoretischen Grenzen bereits in realistischen Szenarien auftreten können – selbst bei äußerst einfachen Abfragen. Wir verknüpfen bekannte Ergebnisse aus der Lerntheorie und zeigen, dass die Anzahl der möglichen top-k-Teilmengen von Dokumenten, die als Ergebnis einer bestimmten Abfrage zurückgegeben werden können, durch die Dimension des Embeddings begrenzt ist. Experimentell belegen wir, dass diese Einschränkung auch dann gilt, wenn wir uns auf den Fall k=2 beschränken und direkt auf dem Testset mit frei parametrisierten Embeddings optimieren. Anschließend erstellen wir eine realistische Datensammlung namens LIMIT, die Modelle anhand dieser theoretischen Erkenntnisse herausfordert, und beobachten, dass selbst state-of-the-art-Modelle an dieser Aufgabe scheitern, obwohl die Aufgabenstellung äußerst einfach ist. Unsere Arbeit verdeutlicht die Grenzen von Embedding-Modellen im Rahmen des derzeitigen Ein-Vektor-Paradigmas und unterstreicht die Notwendigkeit zukünftiger Forschung, Methoden zu entwickeln, die diese fundamentale Einschränkung überwinden können.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.