6ヶ月前

概要

大規模なデータセット上で深層ニューラルネットワーク（DNN）モデルを学習する際のデータラベリングおよびモデル学習にかかるコストと時間の増大は、大きな課題となっている。アクティブラーニングなどの戦略を用いて、代表的な小規模なデータサンプルを効果的に選定することで、こうしたボトルネックを緩和できる。自然言語処理（NLP）分野における従来のアクティブラーニング研究では、不確実性に基づくクエリによるサンプル取得に伴うサンプリングバイアスの問題が指摘されており、これを解消するためには高コストなアプローチが必要とされてきた。本研究では、大規模な実証的調査を基に、FastText.zip（FTZ）のような深層モデルの事後エントロピーを用いたアクティブセット選択が、従来の文献とは異なり、サンプリングバイアスやさまざまなアルゴリズム的選択（クエリサイズや戦略）に対して頑健であることを示した。さらに、FTZに基づくクエリ戦略が、より高度なアプローチ（例：アンサンブルネットワーク）と同様のサンプルセットを生成できることも実証した。最終的に、選択されたサンプルを用いて極小規模ながら高品質なデータセットを構築し、大規模モデルの高速かつ低コストな学習を実現した。以上の結果を踏まえ、最先端の手法を上回る性能を示すシンプルな深層アクティブテキスト分類のベースラインを提案する。本研究の成果は、データセット圧縮やアクティブラーニング、半教師あり学習、オンライン学習といった問題に有用であり、参考となる情報提供が期待される。コードおよびモデルは以下のURLで公開されている：https://github.com/drimpossible/Sampling-Bias-Active-Learning

ソースPDF