HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Sur les limites théoriques de la recherche basée sur les embeddings

Orion Weller Michael Boratko Iftekhar Naim Jinhyuk Lee

Sur les limites théoriques de la recherche basée sur les embeddings

Résumé

Depuis plusieurs années, les embeddings vectoriels sont confrontés à un ensemble croissant de tâches de recherche, avec une émergence récente de leur utilisation pour des raisonnements, le suivi d'instructions, la génération de code et d'autres applications. Ces nouvelles évaluations poussent les embeddings à répondre à toute requête et à toute notion de pertinence qu’on pourrait définir. Bien que des travaux antérieurs aient souligné des limites théoriques inhérentes aux embeddings vectoriels, une hypothèse courante est que ces difficultés ne surviennent que dans des cas de requêtes irréalistes, et qu’elles pourraient être surmontées par une meilleure qualité des données d’entraînement et des modèles plus volumineux. Dans ce travail, nous démontrons que ces limites théoriques peuvent apparaître même dans des scénarios réalistes, avec des requêtes extrêmement simples. Nous établissons un lien avec des résultats établis en théorie de l’apprentissage, en montrant que le nombre de sous-ensembles de documents de taille k pouvant être retournés comme résultat d’une requête est borné par la dimension de l’embedding. Nous montrons empiriquement que cette contrainte reste valable même lorsque l’on se limite à k=2, et que l’on optimise directement sur l’ensemble de test en utilisant des embeddings paramétrés libres. Ensuite, nous proposons un jeu de données réaliste, appelé LIMIT, conçu pour tester rigoureusement les modèles à partir de ces résultats théoriques. Nous observons que même les modèles les plus avancés échouent sur ce jeu de données, malgré la simplicité apparente de la tâche. Notre travail met en lumière les limites des modèles d’embeddings dans le cadre du paradigme actuel basé sur un seul vecteur, et appelle à des recherches futures visant à développer des méthodes capables de surmonter cette limitation fondamentale.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Sur les limites théoriques de la recherche basée sur les embeddings | Articles de recherche | HyperAI