HyperAIHyperAI

Command Palette

Search for a command to run...

深層アクティブ分類におけるサンプリングバイアス:実証的研究

Ameya Prabhu Charles Dognin Maneesh Singh

概要

大規模なデータセット上で深層ニューラルネットワーク(DNN)モデルを学習する際のデータラベリングおよびモデル学習にかかるコストと時間の増大は、大きな課題となっている。アクティブラーニングなどの戦略を用いて、代表的な小規模なデータサンプルを効果的に選定することで、こうしたボトルネックを緩和できる。自然言語処理(NLP)分野における従来のアクティブラーニング研究では、不確実性に基づくクエリによるサンプル取得に伴うサンプリングバイアスの問題が指摘されており、これを解消するためには高コストなアプローチが必要とされてきた。本研究では、大規模な実証的調査を基に、FastText.zip(FTZ)のような深層モデルの事後エントロピーを用いたアクティブセット選択が、従来の文献とは異なり、サンプリングバイアスやさまざまなアルゴリズム的選択(クエリサイズや戦略)に対して頑健であることを示した。さらに、FTZに基づくクエリ戦略が、より高度なアプローチ(例:アンサンブルネットワーク)と同様のサンプルセットを生成できることも実証した。最終的に、選択されたサンプルを用いて極小規模ながら高品質なデータセットを構築し、大規模モデルの高速かつ低コストな学習を実現した。以上の結果を踏まえ、最先端の手法を上回る性能を示すシンプルな深層アクティブテキスト分類のベースラインを提案する。本研究の成果は、データセット圧縮やアクティブラーニング、半教師あり学習、オンライン学習といった問題に有用であり、参考となる情報提供が期待される。コードおよびモデルは以下のURLで公開されている:https://github.com/drimpossible/Sampling-Bias-Active-Learning


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
深層アクティブ分類におけるサンプリングバイアス:実証的研究 | 記事 | HyperAI超神経