11日前

頭の中にすべてがある:分類器共有による表現知識蒸留

Emanuel Ben-Baruch, Matan Karklinsky, Yossi Biton, Avi Ben-Cohen, Hussam Lawen, Nadav Zamir
頭の中にすべてがある:分類器共有による表現知識蒸留
要約

表現知識蒸留(Representation Knowledge Distillation)は、一つのモデルから別のモデルへ豊かな情報を転送することを目的としています。従来の表現蒸留手法は、主にモデルの埋め込みベクトル間の距離指標を直接最小化することに注力しています。しかし、このような直接的なアプローチは、埋め込みベクトルに内包された高次依存関係の転送に限界があり、また教師モデルと学生モデルの能力差(容量ギャップ)の処理においても課題を抱えています。さらに、標準的な知識蒸留では、教師モデルが学生モデルの特性や能力を考慮せずに訓練されるため、効率的な知識伝達が妨げられることがあります。本論文では、教師モデルと学生モデル間で分類器を共有する手法を用いて、表現蒸留の性能を向上させる2つのメカニズムを提案します。まず、教師モデルの分類器を学生モデルのバックボーンに接続し、追加の分類ヘッドとして機能させる単純なアプローチを検討します。次に、学生モデルの能力が限られている状況を想定し、一時的な学生ヘッドを用いて教師モデルを事前訓練する「学生に配慮した(student-aware)」メカニズムを提案します。これらの2つのメカニズムを詳細に分析・比較し、画像分類、細分化分類、顔認証といった複数のデータセットおよびタスクにおいて有効性を実証しました。特に、MobileFaceNetモデルを用いたIJB-Cデータセットにおける顔認証タスクでは、最先端(SOTA)の性能を達成し、FAR=1e-5における真陽性率(TAR)が93.7%に達しました。実装コードは、https://github.com/Alibaba-MIIL/HeadSharingKD にて公開されています。

頭の中にすべてがある:分類器共有による表現知識蒸留 | 最新論文 | HyperAI超神経