HyperAIHyperAI

Command Palette

Search for a command to run...

TASED-Net: Netzwerk zur zeitlichen Aggregation von räumlichen Encodern und Decodern für die Erkennung von Video-Salienz

Kyle Min Jason J. Corso

Zusammenfassung

TASED-Net ist eine 3D-vollkonvolutionelle Netzwerkarchitektur für die Erkennung von Video-Salienz. Sie besteht aus zwei Bausteinen: zum einen extrahiert das Encoder-Netzwerk räumlich-zeitliche Merkmale mit niedriger Auflösung aus einem Eingabesequenz bestehend aus mehreren aufeinanderfolgenden Bildern, und zum anderen dekodiert das nachfolgende Vorhersagenetzwerk diese kodierten Merkmale räumlich, während es alle zeitlichen Informationen aggregiert. Das Ergebnis ist eine einzelne Vorhersagekarte, die aus einer Eingabesequenz mit mehreren Bildern generiert wird. Rahmensequentielle Salienzkarten können durch Anwendung von TASED-Net in gleitendem Fenstermodus auf ein Video vorhergesagt werden. Der vorgeschlagene Ansatz geht davon aus, dass die Salienzkarte eines beliebigen Bildes unter Berücksichtigung einer begrenzten Anzahl von vergangenen Bildern vorhergesagt werden kann. Die Ergebnisse unserer umfangreichen Experimente zur Video-Salienz-Erkennung bestätigen diese Annahme und zeigen, dass unser vollkonvolutionelles Modell mit der Methode der zeitlichen Aggregation wirksam ist. TASED-Net übertrifft die bisher besten Verfahren auf allen drei großen Video-Salienz-Datensätzen – DHF1K, Hollywood2 und UCFSports – erheblich. Nach einer qualitativen Analyse der Ergebnisse stellen wir fest, dass unser Modell insbesondere bei der Fokussierung auf bewegte Salienzobjekte überlegen ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TASED-Net: Netzwerk zur zeitlichen Aggregation von räumlichen Encodern und Decodern für die Erkennung von Video-Salienz | Paper | HyperAI