
要約
私たちは、階層的なツリーストラクチャを用いてグローバルコンテキスト情報を符号化し、情報量の多い学習サンプル(トリプレット)を自動的に収集できる新しい階層的トリプレット損失(Hierarchical Triplet Loss: HTL)を提案します。これにより、従来のトリプレット損失の学習におけるランダムサンプリングの主な制限要因である深層計量学習の中心的な問題に対処することが可能になります。私たちの主要な貢献は以下の2点です。(i) 隣接するクラスを再帰的にマージして階層的なクラスレベルツリーを構築します。この階層構造は、データベース全体での内在的なデータ分布を自然に捉えます。(ii) 新しい違反マージンを導入することで、トリプレット収集の問題を定式化します。この違反マージンは、設計された階層的ツリーに基づいて動的に計算されます。これにより、グローバルコンテキストのガイドのもとで意味のある難易度の高いサンプルが自動的に選択され、視覚的に類似したクラスからより区別可能な特徴を学習することをモデルに促します。その結果、より速い収束と更好的性能が得られます。本手法は画像検索と顔認識タスクにおいて評価され、標準的なトリプレット損失に対して1%〜18%大幅に優れた性能を示しました。また、多くのベンチマークで新たな最先端の性能を達成しており、学習イテレーション数も大幅に削減されています。