HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen impliziter zeitlicher Alignment für Few-shot-Videoklassifikation

Songyang Zhang Jiale Zhou Xuming He

Zusammenfassung

Few-shot Video-Klassifikation zielt darauf ab, neue Videokategorien mit nur wenigen beschrifteten Beispielen zu lernen und damit die Belastung durch kostspielige Annotation in realen Anwendungen zu verringern. Insbesondere ist es jedoch herausfordernd, in diesem Kontext eine klasseninvariante räumlich-zeitliche Darstellung zu erlernen. Um diesem Problem zu begegnen, schlagen wir in dieser Arbeit eine neuartige, auf Matching basierende Few-shot-Lernstrategie für Videosequenzen vor. Unser zentrales Konzept besteht darin, eine implizite zeitliche Alignment-Mechanismus für Paare von Videos einzuführen, der die Ähnlichkeit zwischen ihnen präzise und robust schätzen kann. Zudem entwerfen wir ein effektives Kontext-Encoding-Modul, das räumliche und kanalbasierte Merkmalskontextinformationen integriert, wodurch eine bessere Modellierung der innerhalb der Klasse auftretenden Variationen ermöglicht wird. Zur Trainingsdurchführung entwickeln wir eine Multi-Task-Verlustfunktion zur Lernung von Video-Matching, was zu allgemeineren Video-Features führt. Umfangreiche experimentelle Ergebnisse auf zwei anspruchsvollen Benchmarks zeigen, dass unsere Methode sowohl auf SomethingSomething-V2 im Vergleich zu vorherigen Ansätzen mit einer deutlichen Lücke als auch auf Kinetics konkurrenzfähige Ergebnisse erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp