11 天前
Token Turing Machines
Michael S. Ryoo, Keerthana Gopalakrishnan, Kumara Kahatapitiya, Ted Xiao, Kanishka Rao, Austin Stone, Yao Lu, Julian Ibarz, Anurag Arnab

摘要
我们提出了一种名为Token Turing Machine(TTM)的序列化、自回归Transformer模型,该模型具备记忆功能,适用于现实世界中的序列视觉理解任务。受开创性研究《神经图灵机》(Neural Turing Machine)的启发,TTM配备了一个外部记忆模块,该模块由一组“token”构成,用于对先前的历史信息(即视频帧序列)进行摘要表示。在每个处理步骤中,模型利用Transformer作为处理单元(或控制器),高效地实现对记忆的寻址、读取与写入。得益于这一记忆模块的设计,模型在处理新观测时仅依赖记忆中的内容,而非完整的历史序列,从而能够在每一步保持有界的计算开销,实现对长序列的高效处理。实验结果表明,在两个现实世界中的序列视觉理解任务上,TTM显著优于其他主流方法,包括专为长序列设计的其他Transformer模型以及循环神经网络(RNN)。这两个任务分别为:从视频流中进行在线时间活动检测,以及基于视觉的机器人动作策略学习。代码已公开,可访问:https://github.com/google-research/scenic/tree/main/scenic/projects/token_turing