HyperAIHyperAI
il y a 2 mois

Variational Deep Semantic Hashing pour les Documents Textuels

Suthee Chaidaroon; Yi Fang
Variational Deep Semantic Hashing pour les Documents Textuels
Résumé

Au cours de la dernière décennie, la quantité de données textuelles a augmenté rapidement, ce qui a rendu les méthodes de recherche de similarité efficaces un élément crucial des systèmes de récupération d'information à grande échelle. Une stratégie populaire consiste à représenter les échantillons de données originaux par des codes binaires compacts grâce au hachage. Bien que diverses méthodes d'apprentissage automatique aient été utilisées, elles manquent souvent d'expressivité et de flexibilité dans la modélisation pour apprendre des représentations efficaces. Les récentes avancées de l'apprentissage profond dans une gamme étendue d'applications ont démontré sa capacité à apprendre des représentations de caractéristiques robustes et puissantes pour des données complexes. En particulier, les modèles génératifs profonds combinent naturellement l'expressivité des modèles génératifs probabilistes avec la grande capacité des réseaux neuronaux profonds, ce qui les rend très adaptés à la modélisation du texte. Cependant, peu de travaux ont exploité les progrès récents en apprentissage profond pour le hachage textuel.Dans cet article, nous proposons une série de nouveaux modèles génératifs profonds pour le hachage textuel. Le premier modèle proposé est non supervisé tandis que le second est supervisé en utilisant des étiquettes/documents pour le hachage. Le troisième modèle prend en compte davantage les facteurs spécifiques aux documents qui influencent la génération des mots. La formulation générative probabiliste des modèles proposés offre un cadre rigoureux pour l'extension du modèle, l'estimation de l'incertitude, la simulation et l'interprétabilité. Basés sur l'inférence variationnelle et la réparamétrisation, les modèles proposés peuvent être interprétés comme des réseaux neuronaux profonds encodeur-décodeur et sont donc capables d'apprendre des représentations distribuées non linéaires complexes des documents originaux. Nous menons une série complète d'expériences sur quatre bases de tests publiques. Les résultats expérimentaux ont démontré l'efficacité des modèles d'apprentissage supervisé proposés pour le hachage textuel.

Variational Deep Semantic Hashing pour les Documents Textuels | Articles de recherche récents | HyperAI