vor 6 Monaten

Zusammenfassung

Text-Video-Retrieval ist eine Aufgabe von großer praktischer Relevanz und hat zunehmend an Aufmerksamkeit gewonnen, wobei die Lernung von räumlich-zeitlichen Video-Repräsentationen zu einem der zentralen Forschungsschwerpunkte geworden ist. In den aktuellen Top-Modellen für Video-Retrieval werden typischerweise vortrainierte Vision-Backbones mit fixierter Netzwerkarchitektur direkt übernommen, wodurch eine weitere Verbesserung zur Erzeugung feinkörniger räumlich-zeitlicher Video-Repräsentationen nicht möglich ist. In diesem Artikel stellen wir den Token Shift and Selection Network (TS²-Net) vor, eine neuartige Transformer-Architektur mit dynamischer Token-Verschiebung und -Auswahl, die die Token-Sequenz sowohl zeitlich als auch räumlich anpasset und informative Tokens aus den Eingabevideos selektiert. Der Token-Verschiebungs-Modul verschiebt die gesamten Token-Features zeitlich hin und her zwischen benachbarten Frames, um die vollständige Token-Repräsentation zu bewahren und subtile Bewegungen zu erfassen. Anschließend wählt der Token-Auswahl-Modul die Tokens aus, die den größten Beitrag zur lokalen räumlichen Semantik leisten. Auf Basis umfangreicher Experimente erreicht der vorgeschlagene TS²-Net-Modell die bisher besten Ergebnisse auf etablierten Benchmarks für Text-Video-Retrieval, einschließlich neuer Rekorde auf MSRVTT, VATEX, LSMDC, ActivityNet und DiDeMo.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Multimodale Darstellung

Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Multimodale Darstellung

Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

TS2-Net: Token Shift und Selection Transformer für Text-Video-Retrieval

Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TS2-Net: Token Shift und Selection Transformer für Text-Video-Retrieval

Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TS2-Net: Token Shift und Selection Transformer für Text-Video-Retrieval

Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters