
深層ニューラルネットワークの波に乗って、深層計量学習も三つ組ネットワークや双子ネットワークを用いた様々なタスクで有望な結果を達成しています。同じカテゴリの画像を異なるカテゴリの画像よりも近づけるという基本的な目標は直感的ですが、サンプル数が二次または三次関数的に増えるため直接最適化するのは困難です。この問題を解決するために、ハード例マイニングが広く使用されています。これは、モデルにとって難易度が高いとされる一部のサンプルに焦点を当てる手法です。しかし、ハードとはモデルに対して相対的に定義されるものであり、複雑なモデルではほとんどのサンプルが簡単なものとして扱われ、単純なモデルでは逆に多くのサンプルが難易度が高いものとして扱われます。どちらも学習には適していないため、サンプルの難易度レベルは様々であり、適切な複雑さを持つモデルを定義し、ハード例を選択することは難しいです。これにより我々は異なる複雑さを持つ一連のモデルをカスケード方式でアンサンブルし、適応的にハード例をマイニングすることを目指しました。サンプルは複雑さが段階的に増加する一連のモデルによって評価され、そのサンプルが難易度が高いと判断された場合のみモデルが更新されます。我々の手法はCARS196、CUB-200-2011、Stanford Online Products、VehicleIDおよびDeepFashionデータセット上で評価され、最新の手法を大幅に上回る結果を得ました。注:「深層計量学習」(deep metric learning)、「三つ組ネットワーク」(triplet network)、「双子ネットワーク」(Siamese network)、「ハード例マイニング」(hard example mining)などの専門用語を使用しています。「カスケード方式」(cascaded manner)や「適応的に」(adaptively)なども技術的な表現として採用しています。