vor 11 Tagen

Token-Turing-Maschinen

Michael S. Ryoo, Keerthana Gopalakrishnan, Kumara Kahatapitiya, Ted Xiao, Kanishka Rao, Austin Stone, Yao Lu, Julian Ibarz, Anurag Arnab

Details der Forschungsarbeit anzeigen

Abstract

Wir stellen Token Turing Machines (TTM) vor, ein sequentielles, autoregressives Transformer-Modell mit Gedächtnis für die reale sequentielle visuelle Wahrnehmung. Unser Modell ist inspiriert durch das wegweisende Neural Turing Machine und verfügt über ein externes Gedächtnis, das aus einer Menge von Tokens besteht, welche die bisherige Historie (d. h. Frames) zusammenfassen. Dieses Gedächtnis wird effizient über einen Transformer als Verarbeitungseinheit/Controller in jedem Schritt adressiert, gelesen und geschrieben. Das Gedächtnismodul des Modells stellt sicher, dass eine neue Beobachtung nur mit dem Inhalt des Gedächtnisses (und nicht mit der gesamten Historie) verarbeitet wird, was es ermöglicht, lange Sequenzen mit einer beschränkten Rechenkosten pro Schritt effizient zu verarbeiten. Wir zeigen, dass TTM andere Ansätze – wie andere für lange Sequenzen konzipierte Transformer-Modelle oder rekurrente neuronale Netze – auf zwei realen Aufgaben der sequentiellen visuellen Wahrnehmung übertrifft: Online-zeitliche Aktivitätserkennung aus Videos und lernbasierte Roboter-Aktionspolitik auf Basis von visuellen Eingaben.Der Quellcode ist öffentlich verfügbar unter: https://github.com/google-research/scenic/tree/main/scenic/projects/token_turing