大規模な長尾分布認識におけるオープンワールド環境下的大規模な長尾分布認識

実世界のデータはしばしば長尾分布かつ開放的な特性を持つ。実用的な認識システムは、多数クラスと少数クラスを分類し、少数の既知のインスタンスから一般化し、未見のインスタンスに対して新規性を認識しなければならない。私たちはこのような自然に分布するデータから学習し、ヘッドクラス、テールクラス、およびオープンクラスを含むバランスの取れたテストセットでの分類精度を最適化することをオープンロングテール認識(OLTR)と定義する。OLTRは、不均衡な分類、少ショット学習、およびオープンセット認識を統合したアルゴリズムで処理しなければならず、既存の分類手法は特定の側面にのみ焦点を当てており、全体的なクラススペクトラムにおいて性能が低い。主要な課題は、ヘッドクラスとテールクラス間での視覚的知識の共有方法と、テールクラスとオープンクラス間での混同を軽減する方法である。私たちは統合されたOLTRアルゴリズムを開発し、画像を特徴空間にマッピングすることで視覚的概念が互いに関連付けられやすくする。この際、学習されたメトリックに基づいてクローズドワールド分類を尊重しつつオープンワールドの新規性も認識する。私たちが提案する動的メタ埋め込みは直接的な画像特徴量と関連メモリ特徴量を組み合わせるものであり、特徴量ノルムが既知のクラスに対する馴染み度合いを示す。オブジェクト中心のImageNet、シーン中心のPlaces、顔中心のMS1Mデータからキュレーションした3つの大規模なOLTRデータセットにおいて、当社の手法は一貫して最先端技術を超える性能を発揮した。当社のコード、データセット、モデルは将来のOLTR研究に貢献するために公開されており、詳細はhttps://liuziwei7.github.io/projects/LongTail.html で確認できる。以上が翻訳です。ご確認ください。