HyperAIHyperAI

Command Palette

Search for a command to run...

Vorkenntnisseintegration durch LLM-Kodierung und Pseudoereignisregulierung für die Video-Moment-Retrieval

Yiyang Jiang Wengyu Zhang Xulu Zhang Xiao-Yong Wei Chang Wen Chen Qing Li

Zusammenfassung

In dieser Arbeit untersuchen wir die Machbarkeit der Nutzung großer Sprachmodelle (LLMs) zur Integration allgemeinen Wissens und zur Einbeziehung von Pseudoereignissen als A-priori-Informationen für die zeitliche Verteilung von Inhalten in Video-Moment-Retrieval-Modellen (VMR). Die Motivation für diese Studie ergibt sich aus den Einschränkungen der Verwendung von LLMs als Decodern zur Generierung diskreter textbasierter Beschreibungen, was ihre direkte Anwendung auf kontinuierliche Ausgaben wie Aufmerksamkeitswerte und Interframe-Embeddings, die Interframe-Beziehungen erfassen, erschwert. Um diese Einschränkungen zu überwinden, schlagen wir vor, LLM-Encodern anstelle von Decodern zu nutzen. Durch eine Machbarkeitsstudie zeigen wir, dass LLM-Encodern effektiv die Beziehungen zwischen Konzepten in multimodalen Embeddings verfeinern können, selbst ohne auf textbasierten Embeddings trainiert worden zu sein. Wir demonstrieren zudem, dass die Verfeinerungsfähigkeit der LLM-Encodern auf andere Embeddings wie BLIP und T5 übertragen werden kann, solange diese ähnliche Muster der Interkonzept-Ahnlichkeit wie CLIP-Embeddings aufweisen. Wir präsentieren ein allgemeines Framework zur Integration von LLM-Encodern in bestehende VMR-Architekturen, insbesondere innerhalb des Fusionssystems. Durch experimentelle Validierung belegen wir die Effektivität unserer vorgeschlagenen Methoden durch die Erreichung eines Standes der Technik in VMR. Der Quellcode ist unter https://github.com/fletcherjiang/LLMEPET abrufbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Vorkenntnisseintegration durch LLM-Kodierung und Pseudoereignisregulierung für die Video-Moment-Retrieval | Paper | HyperAI