HyperAIHyperAI
vor 17 Tagen

Dimensionsreduktion für eine effiziente dichte Suche mittels bedingtem Autoencoder

Zhenghao Liu, Han Zhang, Chenyan Xiong, Zhiyuan Liu, Yu Gu, Xiaohua Li
Dimensionsreduktion für eine effiziente dichte Suche mittels bedingtem Autoencoder
Abstract

Dichte Retriever kodieren Abfragen und Dokumente und projizieren sie in einen Embedding-Raum mithilfe vortrainierter Sprachmodelle. Diese Embeddings müssen hochdimensional sein, um die Trainingssignale angemessen zu erfassen und die Effektivität der Recherche durch dichte Retriever zu gewährleisten. Allerdings führen diese hochdimensionalen Embeddings zu größerem Index-Speicherbedarf und höherer Abfrageverzögerung. Um die Dimensionen der Embeddings im dichten Retrieval zu reduzieren, schlägt dieser Artikel einen bedingten Autoencoder (ConAE) vor, der hochdimensionale Embeddings komprimiert, wobei die ursprüngliche Embedding-Verteilung erhalten und die Ranking-Features besser rekonstruiert werden. Unsere Experimente zeigen, dass ConAE effektiv ist, indem er Embeddings komprimiert, dabei jedoch eine vergleichbare Ranking-Leistung wie das Lehrmodell erzielt und das Retrieval-System effizienter macht. Weitere Analysen belegen, dass ConAE die Redundanz der Embeddings im dichten Retrieval bereits mit einer einzigen linearen Schicht reduzieren kann. Alle Quellcodes dieses Werkes sind unter https://github.com/NEUIR/ConAE verfügbar.