17日前
HyperTransformer:教師ありおよび準教師あり少サンプル学習のためのモデル生成
Andrey Zhmoginov, Mark Sandler, Max Vladymyrov

要約
本研究では、サポートサンプルから畳み込みニューラルネットワーク(CNN)の重みを直接生成する、Transformerを基盤とするハイパーモデル「HyperTransformer」を提案する。大容量のTransformerモデルによって、小さな生成されたCNNモデルが特定のタスクに依存する特性を表現することにより、広範なタスク空間の複雑さと個々のタスクの複雑さを効果的に分離できる。特に、タスクに依存しない普遍的な埋め込みを固定して学習することが最適でない小さなターゲットCNNアーキテクチャにおいて、タスクに関する情報をモデルのすべてのパラメータに調整する形で反映させることで、より優れた性能が得られる。一方、より大きなモデルでは、最後の層のみを生成する手法が、従来の最先端手法と比較して競争力のある、あるいはそれ以上の結果を達成できることを明らかにした。さらに、本手法はエンド・トゥ・エンドで微分可能であるという利点を持つ。