HyperAIHyperAI

Command Palette

Search for a command to run...

Adaptive Intermediate Representations für die Videoverstehens

Juhana Kangaspunta AJ Piergiovanni Rico Jonschkowski Michael Ryoo Anelia Angelova

Zusammenfassung

Eine gängige Strategie für die Videoverstehensaufgabe besteht darin, räumliche und Bewegungsinformationen durch die Fusion von aus RGB-Bildern und optischem Fluss abgeleiteten Merkmalen zu integrieren. In dieser Arbeit stellen wir eine neue Methode vor, bei der semantische Segmentierung als Zwischendarstellung für das Videoverstehen genutzt wird und dabei keine zusätzlichen Beschriftungen erfordert. Zweitens schlagen wir einen allgemeinen Rahmen vor, der die Zwischendarstellungen (optischer Fluss und semantische Segmentierung) gemeinsam mit der endgültigen Aufgabe des Videoverstehens lernt und die Anpassung dieser Darstellungen an das Endziel ermöglicht. Trotz der Verwendung von Zwischendarstellungen innerhalb des Netzwerks wird während der Inferenz kein zusätzlicher Datensatz außer den RGB-Sequenzen benötigt, was eine effiziente Erkennung mit einem einzigen Netzwerk ermöglicht. Schließlich präsentieren wir eine Methode zur Suche nach der optimalen Lernkonfiguration durch evolutionäre Suche nach der besten Verstärkung der Verlustfunktionen. Auf diese Weise erzielen wir leistungsfähigere visuelle Darstellungen für Videos, die zu Verbesserungen gegenüber dem Stand der Technik führen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp