HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Theoretische Grenzen der auf Einbettungen basierenden Suche

Orion Weller Michael Boratko Iftekhar Naim Jinhyuk Lee

Theoretische Grenzen der auf Einbettungen basierenden Suche

Abstract

Vektor-Embeddings wurden im Laufe der Jahre immer weiteren Retrieval-Aufgaben zugeordnet, wobei sich eine zunehmende Nutzung für kognitive Aufgaben wie Schlussfolgern, Anweisungsfolgen, Programmierung und weitere Bereiche abzeichnet. Diese neuen Benchmark-Datenbanken fordern von Embeddings, für beliebige Abfragen und beliebige Relevanzkonzepte geeignet zu sein. Obwohl frühere Arbeiten theoretische Grenzen von Vektor-Embeddings aufgezeigt haben, besteht eine verbreitete Annahme, dass diese Schwierigkeiten ausschließlich auf unrealistische Abfragen zurückzuführen sind und durch bessere Trainingsdaten sowie größere Modelle überwunden werden können. In dieser Arbeit zeigen wir, dass diese theoretischen Grenzen bereits in realistischen Szenarien auftreten können – selbst bei äußerst einfachen Abfragen. Wir verknüpfen bekannte Ergebnisse aus der Lerntheorie und zeigen, dass die Anzahl der möglichen top-k-Teilmengen von Dokumenten, die als Ergebnis einer bestimmten Abfrage zurückgegeben werden können, durch die Dimension des Embeddings begrenzt ist. Experimentell belegen wir, dass diese Einschränkung auch dann gilt, wenn wir uns auf den Fall k=2 beschränken und direkt auf dem Testset mit frei parametrisierten Embeddings optimieren. Anschließend erstellen wir eine realistische Datensammlung namens LIMIT, die Modelle anhand dieser theoretischen Erkenntnisse herausfordert, und beobachten, dass selbst state-of-the-art-Modelle an dieser Aufgabe scheitern, obwohl die Aufgabenstellung äußerst einfach ist. Unsere Arbeit verdeutlicht die Grenzen von Embedding-Modellen im Rahmen des derzeitigen Ein-Vektor-Paradigmas und unterstreicht die Notwendigkeit zukünftiger Forschung, Methoden zu entwickeln, die diese fundamentale Einschränkung überwinden können.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Theoretische Grenzen der auf Einbettungen basierenden Suche | Forschungsarbeiten | HyperAI