2ヶ月前

MILDNet: 軽量単一スケールの深層ランキングアーキテクチャ

Anirudha Vishvakarma
MILDNet: 軽量単一スケールの深層ランキングアーキテクチャ
要約

多尺度深層CNNアーキテクチャ[1, 2, 3]は視覚的類似性タスクにおいて、微細な特徴量と粗い特徴量の両方を効果的に捉えることに成功していますが、高価なメモリオーバーヘッドと遅延が問題となっています。本論文では、競合する新しいCNNアーキテクチャであるMILDNetを提案します。このモデルは、約3倍コンパクトであるという利点があります。連続するCNN層が画像を段階的に抽象化することに着想を得て、複数の中間層と最終層の活性化を組み合わせることで、深層ランキングモデルを単一のCNNに圧縮しました。有名なStreet2shopデータセット[4]での訓練結果から、当アプローチは現行の最先端モデルと同等の性能を示すことが確認され、パラメータ数、モデルサイズ、学習時間は約3分の1に削減され、推論時間も大幅に短縮されました。中間層の重要性については、Holidays, Oxford, Paris[5]などの一般的なデータセットでも画像検索タスクにおいてその有効性が示されています。したがって、当実験はEC領域で行われていますが、他の領域にも適用可能です。さらにアブレーションスタディを行い、各中間層の追加による影響を検証することで仮説を確認しました。これによりMILDNetの2つの有用なバリエーションも提示します:エッジデバイス向けのモバイルモデル(約12倍小さい)とRAM容量が少ないシステムやランキングコストを削減するために使用できるコンパクト特徴量モデル(512次元特徴ベクトル)。また自動的にカスタマイズされた社内用トリプレット訓練データセットを作成する直感的な方法も提案しており、これは手動で作成するのが非常に困難です。このソリューションも全体として視覚的類似性ソリューションとして展開可能です。最後にFyndで現在視覚的類似性機能を支えている完全なプロダクションレベルのアーキテクチャについて紹介します。

MILDNet: 軽量単一スケールの深層ランキングアーキテクチャ | 最新論文 | HyperAI超神経