HyperAIHyperAI

Command Palette

Search for a command to run...

Représentation vectorielle efficace des documents par corruption

Minmin Chen

Résumé

Nous présentons un cadre efficace d'apprentissage de la représentation des documents, appelé Document Vector through Corruption (Doc2VecC). Doc2VecC représente chaque document comme une moyenne simple des plongements de mots (word embeddings). Cette méthode garantit que la représentation générée capture les significations sémantiques du document au cours de l'apprentissage. Un modèle de corruption est intégré, introduisant une régularisation dépendante des données qui favorise les mots informatifs ou rares tout en forçant les plongements des mots courants et non discriminants à être proches de zéro. Doc2VecC produit des plongements de mots nettement meilleurs que Word2Vec. Nous comparons Doc2VecC à plusieurs algorithmes d'apprentissage de la représentation des documents parmi les plus avancés actuellement. L'architecture simple du modèle introduite par Doc2VecC égale ou surpasse ces derniers dans la génération de représentations de haute qualité pour l'analyse de sentiment, la classification des documents ainsi que les tâches de similarité sémantique. La simplicité du modèle permet un entraînement sur des milliards de mots par heure sur une seule machine. En même temps, le modèle est très efficace pour générer des représentations de documents inconnus lors des tests.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp