メモリベースのジッター:メモリ内の多様性を活用した長尾データ上の視覚認識の向上

本論文では、長尾データにおけるディープな視覚認識について考察する。一般的な観点から、2つの応用シナリオ、すなわちディープな分類とディープなメトリック学習を対象とする。長尾データ分布下では、多数派クラス(すなわち尾部クラス)は比較的少ないサンプル数に留まり、クラス内多様性が不足しやすい。このような問題に対して、根本的な解決策として尾部クラスの多様性を高める拡張が有効である。これに応じて、本研究ではシンプルかつ信頼性の高い手法である「メモリベース・ジッター(Memory-based Jitter: MBJ)」を提案する。我々は、訓練過程において深層モデルが各反復ごとにパラメータを継続的に変化させることから、「重みジッター(weight jitters)」という現象が生じることに着目した。この結果、同一の画像を入力とした場合、モデルの過去の異なるバージョンが埋め込み空間内において異なる特徴量を生成し、「特徴ジッター(feature jitters)」が発生する。MBJでは、メモリバンクを用いて複数の訓練反復にわたって得られたこれらの(モデルまたは特徴量の)ジッターを蓄積し、いわゆる「メモリベース・ジッター」を構成する。この蓄積されたジッターにより、尾部クラスのクラス内多様性が向上し、結果として長尾視覚認識性能が改善される。わずかな修正を加えることで、MBJはディープ画像分類とディープメトリック学習という2つの基本的な視覚認識タスク(長尾データ上)に適用可能である。5つの長尾分類ベンチマークおよび2つのディープメトリック学習ベンチマークにおける広範な実験により、顕著な性能向上が確認された。さらに、得られた性能は、両タスクにおいて最新の最先端技術(state-of-the-art)と同等の水準に達している。