プールベースのサンプリングプールベースのサンプリング

プールベースのサンプリングは、ラベル付けのための有益な例を選択する一般的なアクティブ ラーニング手法です。ラベルのないデータのプールが作成され、モデルはヒューマン アノテーションに最も有益な例を選択します。これらのラベル付きサンプルはモデルを再トレーニングするために使用され、プロセスが繰り返されます。

アドバンテージ

  • マーキングコストの削減:従来の教師あり学習方法と比較して、プールベースのサンプリングでは、最も有益なサンプルのラベル付けのみが必要となるため、全体的なラベル付けコストが削減されます。これにより、特に大規模なデータ セットを扱う場合に、大幅なコスト削減が可能になります。 
  • 専門家の時間の有効活用:専門家は最も有益なサンプルにラベルを付けるだけでよいため、この戦略により専門家の時間を効果的に活用し、時間とリソースを節約できます。
  • モデルの精度を向上させる:選択されたサンプルは情報を提供し、データを代表する可能性が高いため、プールベースのサンプリングによりモデルの精度を向上させることができます。

欠点がある

  • タグなしデータ プールの選択:選択したデータの品質はモデルのパフォーマンスに影響するため、ラベルなしデータ プールを慎重に選択することが重要です。これは、特に大規模で複雑なデータセットの場合、困難になる可能性があります。
  • 選択方法の品質:最も有益なサンプルを選択するために使用される選択方法の品質は、モデルの精度に影響します。選択した方法がデータに不適切である場合、または設計が不十分な場合、モデルの精度が影響を受ける可能性があります。 
  • すべてのデータ型に適しているわけではありません。プールベースのサンプリングは、非構造化データやノイズの多いデータなど、すべての種類のデータに適しているわけではありません。このような場合には、他の能動学習方法の方が適切である可能性があります。

参考文献

【1】https://encord.com/glossary/pool-based-sampling/