HyperAIHyperAI
vor 2 Monaten

Variationsbasierendes tiefes semantisches Hashing für Textdokumente

Suthee Chaidaroon; Yi Fang
Variationsbasierendes tiefes semantisches Hashing für Textdokumente
Abstract

Da die Menge an textuellen Daten in den letzten zehn Jahren rapide zugenommen hat, sind effiziente Ähnlichkeitssuchmethoden zu einem entscheidenden Bestandteil von groß angelegten Informationsabrufsystemen geworden. Eine weit verbreitete Strategie besteht darin, ursprüngliche Datenproben durch kompakte binäre Codes mittels Hashing zu repräsentieren. Ein Spektrum maschineller Lernverfahren wurde eingesetzt, doch diese fehlen oft an Ausdrucksstärke und Flexibilität bei der Modellierung, um effektive Repräsentationen zu erlernen. Die jüngsten Fortschritte des Deep Learnings in einer Vielzahl von Anwendungen haben seine Fähigkeit gezeigt, robuste und leistungsfähige Merkmalsrepräsentationen für komplexe Daten zu lernen. Insbesondere kombinieren tiefgreifende Generative Modelle die Ausdrucksstärke probabilistischer generativer Modelle mit der hohen Kapazität tiefer Neuronaler Netze, was sie sehr gut für die Textmodellierung eignet. Dennoch wurde bisher wenig Arbeit geleistet, um den jüngsten Fortschritten im Bereich des Deep Learnings für das Texthashing zu nutzen.In dieser Arbeit schlagen wir eine Reihe neuer tiefer Dokumentgenerativmodelle für das Texthashing vor. Das erste vorgeschlagene Modell ist unüberwacht, während das zweite überwacht ist und durch die Nutzung von Dokumentlabels/Tags für das Hashing unterstützt wird. Das dritte Modell berücksichtigt zusätzlich dokumentspezifische Faktoren, die die Erzeugung von Wörtern beeinflussen. Die probabilistische generative Formulierung der vorgeschlagenen Modelle bietet ein fundiertes Rahmenwerk für Modellverlängerungen, Unsicherheitsschätzungen, Simulationen und Interpretierbarkeit. Basierend auf variationeller Inferenz und Reparameterisierung können die vorgeschlagenen Modelle als Encoder-Decoder-Tiefneuronale Netzwerke interpretiert werden und sind daher in der Lage, komplexe nichtlineare verteilte Repräsentationen der ursprünglichen Dokumente zu erlernen. Wir führen eine umfassende Reihe von Experimenten auf vier öffentlichen Testdatensätzen durch. Die experimentellen Ergebnisse haben die Effektivität der vorgeschlagenen überwachten Lernmodelle für das Texthashing nachgewiesen.

Variationsbasierendes tiefes semantisches Hashing für Textdokumente | Neueste Forschungsarbeiten | HyperAI