HyperAIHyperAI
vor 2 Monaten

Leichtgewichtige Aufmerksamkeitsbasierte Merkmalsfusion: Eine neue Baseline für die Text-zu-Video-Retrieval

Hu, Fan ; Chen, Aozhu ; Wang, Ziyue ; Zhou, Fangming ; Dong, Jianfeng ; Li, Xirong
Leichtgewichtige Aufmerksamkeitsbasierte Merkmalsfusion: Eine neue Baseline für die Text-zu-Video-Retrieval
Abstract

In dieser Arbeit werden wir das etablierte Thema der Merkmalsfusion im neuen Kontext der Text-zu-Video-Retrieval erneut aufgreifen. Im Gegensatz zu früheren Studien, die die Merkmalsfusion nur an einem Ende, sei es Video oder Text, betrachteten, streben wir eine Merkmalsfusion für beide Enden innerhalb eines einheitlichen Rahmens an. Wir gehen davon aus, dass die Optimierung der konvexen Kombination der Merkmale den rechenaufwändigen Modellen zur Korrelationsmodellierung durch Multi-Head-Selbst-Aufmerksamkeit vorzuziehen ist. Wir schlagen Lightweight Attentional Feature Fusion (LAFF) vor. LAFF führt die Merkmalsfusion sowohl in frühen als auch in späteren Phasen und sowohl am Video- als auch am Textende durch, was es zu einer leistungsstarken Methode zur Nutzung vielfältiger (vorhandener) Merkmale macht. Die Interpretierbarkeit von LAFF kann für die Auswahl von Merkmalen genutzt werden. Umfangreiche Experimente auf fünf öffentlichen Benchmark-Datensätzen (MSR-VTT, MSVD, TGIF, VATEX und TRECVID AVS 2016-2020) bestätigen LAFF als neue Baseline für Text-zu-Video-Retrieval.

Leichtgewichtige Aufmerksamkeitsbasierte Merkmalsfusion: Eine neue Baseline für die Text-zu-Video-Retrieval | Neueste Forschungsarbeiten | HyperAI