HyperAIHyperAI

Command Palette

Search for a command to run...

Leichtgewichtige Aufmerksamkeitsbasierte Merkmalsfusion: Eine neue Baseline für die Text-zu-Video-Retrieval

Fan Hu extsuperscript1,2* Aozhu Chen extsuperscript1,2* Ziyue Wang extsuperscript1,2* Fangming Zhou extsuperscript1,2 Jianfeng Dong extsuperscript3 Xirong Li extsuperscript1,2†

Zusammenfassung

In dieser Arbeit werden wir das etablierte Thema der Merkmalsfusion im neuen Kontext der Text-zu-Video-Retrieval erneut aufgreifen. Im Gegensatz zu früheren Studien, die die Merkmalsfusion nur an einem Ende, sei es Video oder Text, betrachteten, streben wir eine Merkmalsfusion für beide Enden innerhalb eines einheitlichen Rahmens an. Wir gehen davon aus, dass die Optimierung der konvexen Kombination der Merkmale den rechenaufwändigen Modellen zur Korrelationsmodellierung durch Multi-Head-Selbst-Aufmerksamkeit vorzuziehen ist. Wir schlagen Lightweight Attentional Feature Fusion (LAFF) vor. LAFF führt die Merkmalsfusion sowohl in frühen als auch in späteren Phasen und sowohl am Video- als auch am Textende durch, was es zu einer leistungsstarken Methode zur Nutzung vielfältiger (vorhandener) Merkmale macht. Die Interpretierbarkeit von LAFF kann für die Auswahl von Merkmalen genutzt werden. Umfangreiche Experimente auf fünf öffentlichen Benchmark-Datensätzen (MSR-VTT, MSVD, TGIF, VATEX und TRECVID AVS 2016-2020) bestätigen LAFF als neue Baseline für Text-zu-Video-Retrieval.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp