
摘要
在本工作中,我们提出了一种HyperTransformer,这是一种基于Transformer的模型,适用于监督式与半监督式少样本学习,能够直接从支持样本中生成卷积神经网络(CNN)的权重。由于高容量的Transformer模型编码了小型生成CNN模型对特定任务的依赖关系,我们有效地将大规模任务空间的复杂性与单个任务的复杂性解耦。该方法在小型目标CNN架构上尤为有效,因为在这些架构中,学习一个固定且与任务无关的通用嵌入并非最优方案;当任务相关信息能够调节模型的所有参数时,性能可进一步提升。而对于更大的模型,我们发现仅生成最后一层即可实现与当前最先进方法相当甚至更优的性能,同时保持端到端可微分的特性。