vor 8 Monaten

Fan Hu extsuperscript1,2* Aozhu Chen extsuperscript1,2* Ziyue Wang extsuperscript1,2* Fangming Zhou extsuperscript1,2 Jianfeng Dong extsuperscript3 Xirong Li extsuperscript1,2†

Zusammenfassung

In dieser Arbeit werden wir das etablierte Thema der Merkmalsfusion im neuen Kontext der Text-zu-Video-Retrieval erneut aufgreifen. Im Gegensatz zu früheren Studien, die die Merkmalsfusion nur an einem Ende, sei es Video oder Text, betrachteten, streben wir eine Merkmalsfusion für beide Enden innerhalb eines einheitlichen Rahmens an. Wir gehen davon aus, dass die Optimierung der konvexen Kombination der Merkmale den rechenaufwändigen Modellen zur Korrelationsmodellierung durch Multi-Head-Selbst-Aufmerksamkeit vorzuziehen ist. Wir schlagen Lightweight Attentional Feature Fusion (LAFF) vor. LAFF führt die Merkmalsfusion sowohl in frühen als auch in späteren Phasen und sowohl am Video- als auch am Textende durch, was es zu einer leistungsstarken Methode zur Nutzung vielfältiger (vorhandener) Merkmale macht. Die Interpretierbarkeit von LAFF kann für die Auswahl von Merkmalen genutzt werden. Umfangreiche Experimente auf fünf öffentlichen Benchmark-Datensätzen (MSR-VTT, MSVD, TGIF, VATEX und TRECVID AVS 2016-2020) bestätigen LAFF als neue Baseline für Text-zu-Video-Retrieval.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Fan Hu extsuperscript1,2* Aozhu Chen extsuperscript1,2* Ziyue Wang extsuperscript1,2* Fangming Zhou extsuperscript1,2 Jianfeng Dong extsuperscript3 Xirong Li extsuperscript1,2†

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Fan Hu extsuperscript1,2* Aozhu Chen extsuperscript1,2* Ziyue Wang extsuperscript1,2* Fangming Zhou extsuperscript1,2 Jianfeng Dong extsuperscript3 Xirong Li extsuperscript1,2†

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Leichtgewichtige Aufmerksamkeitsbasierte Merkmalsfusion: Eine neue Baseline für die Text-zu-Video-Retrieval

Fan Hu extsuperscript1,2* Aozhu Chen extsuperscript1,2* Ziyue Wang extsuperscript1,2* Fangming Zhou extsuperscript1,2 Jianfeng Dong extsuperscript3 Xirong Li extsuperscript1,2†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Leichtgewichtige Aufmerksamkeitsbasierte Merkmalsfusion: Eine neue Baseline für die Text-zu-Video-Retrieval

Fan Hu extsuperscript1,2* Aozhu Chen extsuperscript1,2* Ziyue Wang extsuperscript1,2* Fangming Zhou extsuperscript1,2 Jianfeng Dong extsuperscript3 Xirong Li extsuperscript1,2†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Leichtgewichtige Aufmerksamkeitsbasierte Merkmalsfusion: Eine neue Baseline für die Text-zu-Video-Retrieval

Fan Hu extsuperscript1,2* Aozhu Chen extsuperscript1,2* Ziyue Wang extsuperscript1,2* Fangming Zhou extsuperscript1,2 Jianfeng Dong extsuperscript3 Xirong Li extsuperscript1,2†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters