17 天前
Perceiver IO:一种面向结构化输入与输出的通用架构
Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, Joāo Carreira

摘要
机器学习的核心目标之一是构建能够适用于尽可能多数据领域并解决多种问题的系统。然而,当前的模型架构仅限于少数刻板化的应用场景,其原因在于这些架构往往嵌入了特定领域或任务的先验假设,或在处理大规模输入与输出时扩展性较差。本文提出了一种通用架构——Perceiver IO,该架构能够处理任意数据设置,并在输入与输出规模上实现线性可扩展性。我们的模型在原始Perceiver的基础上引入了一种灵活的查询机制,可生成不同大小与语义的输出,从而无需为特定任务进行专门的架构设计。该统一架构在多项任务上均取得了优异表现,涵盖自然语言与视觉理解、多任务与多模态推理,以及《星际争霸II》游戏策略决策。作为亮点,Perceiver IO在不依赖输入分词(tokenization)的情况下,仍优于基于Transformer的BERT基线模型,在GLUE语言理解基准测试中取得更优结果;同时,在Sintel光流估计任务中,尽管未显式引入多尺度对应机制,仍达到了当前最优性能。