Ein binärer variationaler Autoencoder für Hashing

Die Suche nach Elementen in einem großen Datensatz, die einem Beispielobjekt ähnlich sind, ist ein grundlegendes Problem der Informatik. Hashing-Algorithmen lösen dieses Problem, indem sie Daten mit ähnlichkeitserhaltenden binären Codes darstellen, die als Indizes in einer Hash-Tabelle verwendet werden können. Kürzlich wurde gezeigt, dass Variational Autoencoder (VAEs) erfolgreich trainiert werden können, um solche Codes in unüberwachten und halbüberwachten Szenarien zu lernen. In diesem Paper zeigen wir, dass ein Variational Autoencoder mit binären latenten Variablen einen natürlicheren und effektiveren Hashing-Algorithmus ergibt als seine kontinuierlichen Varianten. Das Modell reduziert den Quantisierungsfehler, der durch kontinuierliche Formulierungen verursacht wird, bleibt aber dennoch mit standardisierter Rückpropagation trainierbar. Experimente auf Textretrieval-Aufgaben verdeutlichen die Vorteile unseres Modells gegenüber vorherigen Ansätzen.