HyperAIHyperAI

Command Palette

Search for a command to run...

Variationsbasierendes tiefes semantisches Hashing für Textdokumente

Suthee Chaidaroon; Yi Fang

Zusammenfassung

Da die Menge an textuellen Daten in den letzten zehn Jahren rapide zugenommen hat, sind effiziente Ähnlichkeitssuchmethoden zu einem entscheidenden Bestandteil von groß angelegten Informationsabrufsystemen geworden. Eine weit verbreitete Strategie besteht darin, ursprüngliche Datenproben durch kompakte binäre Codes mittels Hashing zu repräsentieren. Ein Spektrum maschineller Lernverfahren wurde eingesetzt, doch diese fehlen oft an Ausdrucksstärke und Flexibilität bei der Modellierung, um effektive Repräsentationen zu erlernen. Die jüngsten Fortschritte des Deep Learnings in einer Vielzahl von Anwendungen haben seine Fähigkeit gezeigt, robuste und leistungsfähige Merkmalsrepräsentationen für komplexe Daten zu lernen. Insbesondere kombinieren tiefgreifende Generative Modelle die Ausdrucksstärke probabilistischer generativer Modelle mit der hohen Kapazität tiefer Neuronaler Netze, was sie sehr gut für die Textmodellierung eignet. Dennoch wurde bisher wenig Arbeit geleistet, um den jüngsten Fortschritten im Bereich des Deep Learnings für das Texthashing zu nutzen.In dieser Arbeit schlagen wir eine Reihe neuer tiefer Dokumentgenerativmodelle für das Texthashing vor. Das erste vorgeschlagene Modell ist unüberwacht, während das zweite überwacht ist und durch die Nutzung von Dokumentlabels/Tags für das Hashing unterstützt wird. Das dritte Modell berücksichtigt zusätzlich dokumentspezifische Faktoren, die die Erzeugung von Wörtern beeinflussen. Die probabilistische generative Formulierung der vorgeschlagenen Modelle bietet ein fundiertes Rahmenwerk für Modellverlängerungen, Unsicherheitsschätzungen, Simulationen und Interpretierbarkeit. Basierend auf variationeller Inferenz und Reparameterisierung können die vorgeschlagenen Modelle als Encoder-Decoder-Tiefneuronale Netzwerke interpretiert werden und sind daher in der Lage, komplexe nichtlineare verteilte Repräsentationen der ursprünglichen Dokumente zu erlernen. Wir führen eine umfassende Reihe von Experimenten auf vier öffentlichen Testdatensätzen durch. Die experimentellen Ergebnisse haben die Effektivität der vorgeschlagenen überwachten Lernmodelle für das Texthashing nachgewiesen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Variationsbasierendes tiefes semantisches Hashing für Textdokumente | Paper | HyperAI