il y a 2 mois

Réexamen des réseaux LSTM pour la classification de texte semi-supervisée via une fonction objectif mixte

Devendra Singh Sachan; Manzil Zaheer; Ruslan Salakhutdinov

Résumé

Dans cet article, nous étudions le réseau LSTM bidirectionnel pour la tâche de classification de texte en utilisant des approches supervisées et semi-supervisées. Plusieurs travaux antérieurs ont suggéré que soit des schémas d'entraînement préalable complexes utilisant des méthodes non supervisées telles que la modélisation linguistique (Dai et Le 2015 ; Miyato, Dai et Goodfellow 2016), soit des modèles compliqués (Johnson et Zhang 2017) sont nécessaires pour atteindre une haute précision de classification. Cependant, nous développons une stratégie d'entraînement qui permet même à un modèle BiLSTM simple, lorsqu'il est entraîné avec une perte de cross-entropie, d'obtenir des résultats compétitifs par rapport aux approches plus complexes. De plus, en plus de la perte de cross-entropie, en utilisant une combinaison de minimisation d'entropie, pertes adversariales et virtuellement adversariales pour les données étiquetées et non étiquetées, nous rapportons des résultats de pointe pour la tâche de classification de texte sur plusieurs jeux de données de référence. En particulier, sur les jeux de données ACL-IMDB pour l'analyse de sentiment et AG-News pour la classification thématique, notre méthode surpassent les approches actuelles avec une marge substantielle. Nous montrons également la généralité de la fonction objectif mixte en améliorant les performances sur la tâche d'extraction de relations.