Meta-DMoE:Mixture-of-Expertsからのメタ蒸留を用いたドメインシフトへの適応

本稿では、ドメインシフト問題に取り組む。既存の大多数の手法は、複数のソースドメイン上で単一のモデルを訓練し、その同一の訓練済みモデルをすべての未観測のターゲットドメインに適用する。しかし、このようなアプローチは最適ではない。なぜなら、各ターゲットドメインには固有の特徴が存在するが、それらはモデルによって適応されないからである。さらに、複数のソースドメインから広範な知識を単一のモデル訓練によって学習させようとするのは直感に反する。その結果、モデルはドメイン不変な特徴のみを学習する傾向が強く、逆に負の知識転送(negative knowledge transfer)を引き起こす可能性がある。本研究では、ドメインシフトに対処するための新しい非教師付きテスト時適応フレームワークを提案する。このフレームワークは、知識蒸留(knowledge distillation)プロセスとして定式化されており、特にMixture-of-Experts(MoE)を教師モデルとして採用する。各エキスパートは、異なるソースドメイン上で別々に訓練され、それぞれの専門性を最大化するように設計されている。テスト時におけるターゲットドメインに対しては、少量のラベルなしデータをサンプリングし、MoEから知識を照会する。ソースドメインとターゲットドメインの相関関係を考慮し、Transformerベースのアグリゲーターが、それらのドメイン間の相互接続性を分析することで、ドメイン固有の知識を統合する。その出力は、ターゲットドメインに適応するための学生予測ネットワーク(student prediction network)に対する監視信号として扱われる。さらに、メタ学習(meta-learning)を用いて、アグリゲーターが有益な知識を蒸留するよう強制するとともに、学生ネットワークが迅速な適応を達成できるようにする。広範な実験により、提案手法が最先端の手法を上回ることを示し、各提案コンポーネントの有効性も検証された。本研究のコードは、https://github.com/n3il666/Meta-DMoE にて公開されている。