HyperAIHyperAI

Command Palette

Search for a command to run...

ドキュメントベクトルにおけるコサイン類似度の再検討

Zhang Bingyu Nikolay Arefyev

概要

IMDB映画レビューデータセットにおける現在の最先端のテスト精度(97.42%)は、\citet{thongtan-phienthrakul-2019-sentiment}によって報告されており、その論文で提案されたドキュメントベクトル(DV-ngrams-cosine)をコサイン類似度に基づいて学習したロジスティック回帰分類器と、ナイーブベイズ重みでスケーリングされたBag-of-N-grams(BON)ベクトルを用いて達成された。多くのデータセットおよびタスクにおいて、大規模な事前学習済みTransformerベースのモデルが最先端の結果を示しているにもかかわらず、上記のモデルは、はるかに単純であり、IMDBデータセットのみで事前学習されているにもかかわらず、それらに追い抜かれていない。本論文では、IMDBデータセットにおけるこのモデルの優れた性能を分析しようとした際に発見した、評価手順における誤りについて述べる。さらに、従来報告された97.42%のテスト精度は無効であり、正しくは93.68%に修正すべきであることを示す。また、IMDBデータセットの異なる量の訓練データ(サブセット)を用いた場合のモデルの性能を分析し、TransformerベースのRoBERTaモデルと比較する。その結果、RoBERTaは訓練データ量が多い場合には明確な優位性を示す一方で、ラベル付き訓練データが非常に少ない場合(10または20文書)には、DV-ngrams-cosineの方がRoBERTaよりも優れた性能を発揮することが明らかになった。最後に、DV-ngrams-cosineの学習プロセスにナイーブベイズ重みに基づくサブサンプリングスキームを導入することで、学習速度の向上とモデル品質の改善を実現した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています