vor 2 Monaten

Vorkenntnisseintegration durch LLM-Kodierung und Pseudoereignisregulierung für die Video-Moment-Retrieval

Jiang, Yiyang ; Zhang, Wengyu ; Zhang, Xulu ; Wei, Xiaoyong ; Chen, Chang Wen ; Li, Qing

Abstract

In dieser Arbeit untersuchen wir die Machbarkeit der Nutzung großer Sprachmodelle (LLMs) zur Integration allgemeinen Wissens und zur Einbeziehung von Pseudoereignissen als A-priori-Informationen für die zeitliche Verteilung von Inhalten in Video-Moment-Retrieval-Modellen (VMR). Die Motivation für diese Studie ergibt sich aus den Einschränkungen der Verwendung von LLMs als Decodern zur Generierung diskreter textbasierter Beschreibungen, was ihre direkte Anwendung auf kontinuierliche Ausgaben wie Aufmerksamkeitswerte und Interframe-Embeddings, die Interframe-Beziehungen erfassen, erschwert. Um diese Einschränkungen zu überwinden, schlagen wir vor, LLM-Encodern anstelle von Decodern zu nutzen. Durch eine Machbarkeitsstudie zeigen wir, dass LLM-Encodern effektiv die Beziehungen zwischen Konzepten in multimodalen Embeddings verfeinern können, selbst ohne auf textbasierten Embeddings trainiert worden zu sein. Wir demonstrieren zudem, dass die Verfeinerungsfähigkeit der LLM-Encodern auf andere Embeddings wie BLIP und T5 übertragen werden kann, solange diese ähnliche Muster der Interkonzept-Ahnlichkeit wie CLIP-Embeddings aufweisen. Wir präsentieren ein allgemeines Framework zur Integration von LLM-Encodern in bestehende VMR-Architekturen, insbesondere innerhalb des Fusionssystems. Durch experimentelle Validierung belegen wir die Effektivität unserer vorgeschlagenen Methoden durch die Erreichung eines Standes der Technik in VMR. Der Quellcode ist unter https://github.com/fletcherjiang/LLMEPET abrufbar.