vor 5 Monaten

Zusammenfassung

Vektor-Embeddings wurden im Laufe der Jahre immer weiteren Retrieval-Aufgaben zugeordnet, wobei sich eine zunehmende Nutzung für kognitive Aufgaben wie Schlussfolgern, Anweisungsfolgen, Programmierung und weitere Bereiche abzeichnet. Diese neuen Benchmark-Datenbanken fordern von Embeddings, für beliebige Abfragen und beliebige Relevanzkonzepte geeignet zu sein. Obwohl frühere Arbeiten theoretische Grenzen von Vektor-Embeddings aufgezeigt haben, besteht eine verbreitete Annahme, dass diese Schwierigkeiten ausschließlich auf unrealistische Abfragen zurückzuführen sind und durch bessere Trainingsdaten sowie größere Modelle überwunden werden können. In dieser Arbeit zeigen wir, dass diese theoretischen Grenzen bereits in realistischen Szenarien auftreten können – selbst bei äußerst einfachen Abfragen. Wir verknüpfen bekannte Ergebnisse aus der Lerntheorie und zeigen, dass die Anzahl der möglichen top-k-Teilmengen von Dokumenten, die als Ergebnis einer bestimmten Abfrage zurückgegeben werden können, durch die Dimension des Embeddings begrenzt ist. Experimentell belegen wir, dass diese Einschränkung auch dann gilt, wenn wir uns auf den Fall k=2 beschränken und direkt auf dem Testset mit frei parametrisierten Embeddings optimieren. Anschließend erstellen wir eine realistische Datensammlung namens LIMIT, die Modelle anhand dieser theoretischen Erkenntnisse herausfordert, und beobachten, dass selbst state-of-the-art-Modelle an dieser Aufgabe scheitern, obwohl die Aufgabenstellung äußerst einfach ist. Unsere Arbeit verdeutlicht die Grenzen von Embedding-Modellen im Rahmen des derzeitigen Ein-Vektor-Paradigmas und unterstreicht die Notwendigkeit zukünftiger Forschung, Methoden zu entwickeln, die diese fundamentale Einschränkung überwinden können.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

Retrieval-Augmented Generation

Orion Weller Michael Boratko Iftekhar Naim Jinhyuk Lee

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

Retrieval-Augmented Generation

Orion Weller Michael Boratko Iftekhar Naim Jinhyuk Lee

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Theoretische Grenzen der auf Einbettungen basierenden Suche | Paper | HyperAI

Command Palette

Theoretische Grenzen der auf Einbettungen basierenden Suche

Orion Weller Michael Boratko Iftekhar Naim Jinhyuk Lee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Theoretische Grenzen der auf Einbettungen basierenden Suche

Orion Weller Michael Boratko Iftekhar Naim Jinhyuk Lee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Theoretische Grenzen der auf Einbettungen basierenden Suche

Orion Weller Michael Boratko Iftekhar Naim Jinhyuk Lee

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters