TokenLearner: Was können 8 gelernte Tokens für Bilder und Videos leisten?

In diesem Paper stellen wir eine neuartige Lernmethode für visuelle Repräsentationen vor, die auf einer geringen Anzahl adaptiv gelernter Tokens basiert und sowohl für Aufgaben der Bild- als auch der Videoverarbeitung anwendbar ist. Im Gegensatz zu herkömmlichen Ansätzen, die auf manuell entworfenen Aufteilungsstrategien zur Generierung visueller Tokens und der Verarbeitung einer großen Anzahl dicht beisammenliegender Patche für die Aufmerksamkeitsberechnung angewiesen sind, lernt unsere Methode, bedeutungsvolle Tokens in visuellen Daten zu identifizieren. Dadurch gelingt es effizient und effektiv, wenige relevante visuelle Tokens zu finden, wodurch eine Modellierung von Paarwechselwirkungen zwischen diesen Tokens über längere zeitliche Horizonte bei Videos oder räumliche Zusammenhänge in Bildern ermöglicht wird. Unsere Experimente zeigen eine herausragende Leistung auf mehreren anspruchsvollen Benchmarks sowohl für die Bild- als auch für die Videoerkennung. Wichtig ist, dass unsere Tokens adaptiv sind und wir somit konkurrenzfähige Ergebnisse bei deutlich reduziertem Rechenaufwand erzielen. Wir erreichen Ergebnisse, die mit den derzeitigen State-of-the-Art auf ImageNet vergleichbar sind, sind aber rechnerisch signifikant effizienter. Zudem bestätigen wir die Wirksamkeit des Ansatzes auf mehreren Video-Datensätzen, darunter Kinetics-400, Kinetics-600, Charades und AViD.Der Quellcode ist verfügbar unter: https://github.com/google-research/scenic/tree/main/scenic/projects/token_learner