Command Palette
Search for a command to run...
Token Turing Machines
Token Turing Machines
Michael S. Ryoo Keerthana Gopalakrishnan Kumara Kahatapitiya Ted Xiao Kanishka Rao Austin Stone Yao Lu Julian Ibarz Anurag Arnab
摘要
我们提出了一种名为Token Turing Machine(TTM)的序列化、自回归Transformer模型,该模型具备记忆功能,适用于现实世界中的序列视觉理解任务。受开创性研究《神经图灵机》(Neural Turing Machine)的启发,TTM配备了一个外部记忆模块,该模块由一组“token”构成,用于对先前的历史信息(即视频帧序列)进行摘要表示。在每个处理步骤中,模型利用Transformer作为处理单元(或控制器),高效地实现对记忆的寻址、读取与写入。得益于这一记忆模块的设计,模型在处理新观测时仅依赖记忆中的内容,而非完整的历史序列,从而能够在每一步保持有界的计算开销,实现对长序列的高效处理。实验结果表明,在两个现实世界中的序列视觉理解任务上,TTM显著优于其他主流方法,包括专为长序列设计的其他Transformer模型以及循环神经网络(RNN)。这两个任务分别为:从视频流中进行在线时间活动检测,以及基于视觉的机器人动作策略学习。代码已公开,可访问:https://github.com/google-research/scenic/tree/main/scenic/projects/token_turing