コンセプト ドリフトとは、データ ストリームの統計的特性が時間の経過とともに変化し、その結果、学習モデルと現在のデータ分布の間に不一致が生じる現象を指します。これは、新しい要素の導入、既存の要素の重要性の変更、要素間の関係の変更など、さまざまな方法で発生する可能性があります。
機械学習では、コンセプトのドリフトがモデルのパフォーマンスに重大な影響を与える可能性があります。たとえば、特定の期間のデータでトレーニングされたモデルは、基礎となるデータ分布が大幅に変化した場合、別の期間のデータの結果を正確に予測できない可能性があります。これにより、パフォーマンスが低下したり、不正行為検出、信用リスク評価、オンライン広告などのアプリケーションが完全に停止したりする可能性があります。
機械学習システムは、アイデアの漂流に対処するために、変化するデータ分布に適応できる十分な柔軟性を備えている必要があります。アンサンブル アプローチの使用は、複数のモデルをブレンドして堅牢性を高め、個々のモデルのエラーの影響を軽減する戦略です。もう 1 つの戦略は、新しいデータが利用可能になると自動的に更新できる適応モデルを利用することです。オンライン学習方法を使用してこれらのモデルをトレーニングすると、新しいデータが利用可能になったときにモデルをリアルタイムで更新できます。
さらに、認識のずれを特定して管理する方法はたくさんあります。データの分布が大幅に変化したかどうかを判断するための 1 つのアプローチは、統計検定を利用することです。ドリフト検出器を使用することは、モデルのパフォーマンスを長期的に追跡し、必要に応じて再トレーニング手順を開始するための代替戦略です。
コンセプトのドリフトは、機械学習全体、特にデータ フロー ダイナミクスを使用した実際のアプリケーションにおいて大きな問題です。適応モデルとアンサンブル モデル、およびドリフト検出手法を使用することにより、この困難を克服し、動的な状況でも機械学習システムの精度を維持することができます。