2ヶ月前
MultiGrain: クラスとインスタンスの統一的な画像埋め込み
Maxim Berman; Hervé Jégou; Andrea Vedaldi; Iasonas Kokkinos; Matthijs Douze

要約
MultiGrainは、画像分類と特定の物体検索に適したコンパクトなベクトル表現を生成するネットワークアーキテクチャです。このアーキテクチャは標準的な分類用の基幹部分に基づいて構築されています。ネットワークの上位層では、粗粒度情報と細粒度情報を含む埋め込みが生成され、画像は物体クラス、特定の物体、または歪みのあるコピーであるかどうかに基づいて認識できます。私たちの共同学習方法は単純で、分類用のクロスエントロピー損失とデータ拡張まで同一であるか否かを決定するランキング損失を最小化します。これにより追加のラベルが不要となります。MultiGrainの重要な構成要素は、高解像度画像を低解像度で訓練されたネットワークで効果的に処理するプーリング層です。学習済みの埋め込みを線形分類器に入力すると、最先端の分類精度が得られます。例えば、Imagenet上で学習したResNet-50を使用することで79.4%のトップ1精度を達成し、これはAutoAugment手法に対して+1.8%の絶対的な改善となっています。中程度の解像度での画像検索においても、同じ埋め込みはコサイン類似度と比較して最先端レベルの性能を示しています。