HyperAIHyperAI

Command Palette

Search for a command to run...

TokenLearner: Was können 8 gelernte Tokens für Bilder und Videos leisten?

Michael S. Ryoo AJ Piergiovanni Anurag Arnab Mostafa Dehghani Anelia Angelova

Zusammenfassung

In diesem Paper stellen wir eine neuartige Lernmethode für visuelle Repräsentationen vor, die auf einer geringen Anzahl adaptiv gelernter Tokens basiert und sowohl für Aufgaben der Bild- als auch der Videoverarbeitung anwendbar ist. Im Gegensatz zu herkömmlichen Ansätzen, die auf manuell entworfenen Aufteilungsstrategien zur Generierung visueller Tokens und der Verarbeitung einer großen Anzahl dicht beisammenliegender Patche für die Aufmerksamkeitsberechnung angewiesen sind, lernt unsere Methode, bedeutungsvolle Tokens in visuellen Daten zu identifizieren. Dadurch gelingt es effizient und effektiv, wenige relevante visuelle Tokens zu finden, wodurch eine Modellierung von Paarwechselwirkungen zwischen diesen Tokens über längere zeitliche Horizonte bei Videos oder räumliche Zusammenhänge in Bildern ermöglicht wird. Unsere Experimente zeigen eine herausragende Leistung auf mehreren anspruchsvollen Benchmarks sowohl für die Bild- als auch für die Videoerkennung. Wichtig ist, dass unsere Tokens adaptiv sind und wir somit konkurrenzfähige Ergebnisse bei deutlich reduziertem Rechenaufwand erzielen. Wir erreichen Ergebnisse, die mit den derzeitigen State-of-the-Art auf ImageNet vergleichbar sind, sind aber rechnerisch signifikant effizienter. Zudem bestätigen wir die Wirksamkeit des Ansatzes auf mehreren Video-Datensätzen, darunter Kinetics-400, Kinetics-600, Charades und AViD.Der Quellcode ist verfügbar unter: https://github.com/google-research/scenic/tree/main/scenic/projects/token_learner


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp