Les vecteurs de documents utilisant la similarité cosinus revisitée

L’exactitude actuelle de l’état de l’art sur le jeu de données IMDB (97,42 %) a été rapportée par \citet{thongtan-phienthrakul-2019-sentiment}, et obtenue grâce à un classifieur de régression logistique entraîné sur des vecteurs de documents utilisant la similarité cosinus (DV-ngrams-cosine), tel que proposé dans leur article, ainsi que sur des vecteurs Bag-of-N-grams (BON) pondérés par des poids issus d’un modèle bayésien naïf. Bien que les grands modèles pré-entraînés basés sur les Transformers aient atteint des résultats d’état de l’art sur de nombreux jeux de données et tâches, ce modèle précédent n’a pas été surpassé par ces approches, malgré sa simplicité relative et le fait qu’il n’ait été pré-entraîné que sur le jeu de données IMDB.Dans cet article, nous décrivons une erreur dans la procédure d’évaluation de ce modèle, découverte lors de notre analyse de ses performances exceptionnelles sur le jeu de données IMDB. Nous montrons également que l’exactitude précédemment rapportée de 97,42 % est invalide et doit être corrigée à 93,68 %. Nous analysons également la performance du modèle avec différentes quantités de données d’entraînement (sous-ensembles du jeu de données IMDB) et la comparons à celle du modèle basé sur les Transformers RoBERTa. Les résultats montrent que si RoBERTa présente un avantage clair sur de grands ensembles d’entraînement, le modèle DV-ngrams-cosine surpasse RoBERTa lorsque l’ensemble d’apprentissage étiqueté est très petit (10 ou 20 documents). Enfin, nous proposons une stratégie de sous-échantillonnage fondée sur les poids du modèle bayésien naïf pour le processus d’entraînement du modèle DV-ngrams-cosine, ce qui permet d’accélérer l’entraînement tout en améliorant la qualité du modèle.