
IMDB映画レビューデータセットにおける現在の最先端のテスト精度(97.42%)は、\citet{thongtan-phienthrakul-2019-sentiment}によって報告されており、その論文で提案されたドキュメントベクトル(DV-ngrams-cosine)をコサイン類似度に基づいて学習したロジスティック回帰分類器と、ナイーブベイズ重みでスケーリングされたBag-of-N-grams(BON)ベクトルを用いて達成された。多くのデータセットおよびタスクにおいて、大規模な事前学習済みTransformerベースのモデルが最先端の結果を示しているにもかかわらず、上記のモデルは、はるかに単純であり、IMDBデータセットのみで事前学習されているにもかかわらず、それらに追い抜かれていない。本論文では、IMDBデータセットにおけるこのモデルの優れた性能を分析しようとした際に発見した、評価手順における誤りについて述べる。さらに、従来報告された97.42%のテスト精度は無効であり、正しくは93.68%に修正すべきであることを示す。また、IMDBデータセットの異なる量の訓練データ(サブセット)を用いた場合のモデルの性能を分析し、TransformerベースのRoBERTaモデルと比較する。その結果、RoBERTaは訓練データ量が多い場合には明確な優位性を示す一方で、ラベル付き訓練データが非常に少ない場合(10または20文書)には、DV-ngrams-cosineの方がRoBERTaよりも優れた性能を発揮することが明らかになった。最後に、DV-ngrams-cosineの学習プロセスにナイーブベイズ重みに基づくサブサンプリングスキームを導入することで、学習速度の向上とモデル品質の改善を実現した。