17日前
ClusterFit:視覚表現の一般化性能の向上
Xueting Yan, Ishan Misra, Abhinav Gupta, Deepti Ghadiyaram, Dhruv Mahajan

要約
弱教師ありおよび自己教師ありの戦略を用いた事前学習により、畳み込みニューラルネットワーク(CNN)は、複数のコンピュータビジョンタスクにおいてますます注目を集めている。しかし、強力な識別信号が欠如しているため、こうした手法で学習された表現は、事前学習タスク(例えばハッシュタグ予測)に過剰に適合し、下流タスクへの汎化性能が劣ることがある。本研究では、事前学習段階で得られる視覚表現の堅牢性を向上させるシンプルな戦略であるClusterFit(CF)を提案する。与えられたデータセットに対して、(a) 事前に学習されたネットワークから抽出された特徴量をk-means法でクラスタリングし、(b) そのクラスタ割り当てを擬似ラベルとして用いて、新たなネットワークをゼロから再学習する。実証的に、クラスタリングが抽出された特徴量から事前学習タスク特有の情報を低減することにより、同一タスクへの過適合を最小限に抑える効果があることを示す。本手法は、弱教師ありおよび自己教師ありの事前学習フレームワーク、画像および動画といった複数のモダリティ、および物体分類や行動分類といった異なる事前学習タスクに拡張可能である。多様な語彙や粒度を持つ11種類のターゲットデータセットにおける広範な転移学習実験の結果、ClusterFitは、大規模(数百万〜数十億)な弱教師あり画像・動画モデルおよび自己教師あり画像モデルと比較して、顕著に優れた表現能力を示すことを確認した。