HyperAIHyperAI
vor 2 Monaten

D3G: Erkundung von Gaußschen A-priori-Verteilungen für die zeitliche Anbindung von Sätzen mit Blickannotierung

Hanjun Li; Xiujun Shu; Sunan He; Ruizhi Qiao; Wei Wen; Taian Guo; Bei Gan; Xing Sun
D3G: Erkundung von Gaußschen A-priori-Verteilungen für die zeitliche Anbindung von Sätzen mit Blickannotierung
Abstract

Die zeitliche Satzverortung (Temporal Sentence Grounding, TSG) hat das Ziel, einen bestimmten Zeitpunkt in einem ungeschnittenen Video anhand einer gegebenen natürlichsprachlichen Abfrage zu lokalisieren. Kürzlich zeigten schwach überwachte Methoden noch eine große Leistungslücke im Vergleich zu vollständig überwachten Methoden, während letztere aufwendige Zeitstempel-Annotationen erfordern. In dieser Studie streben wir an, die Annotationskosten zu reduzieren und gleichzeitig eine wettbewerbsfähige Leistung für die TSG-Aufgabe im Vergleich zu vollständig überwachten Methoden zu gewährleisten. Um dieses Ziel zu erreichen, untersuchen wir eine kürzlich vorgeschlagene zeitliche Satzverortungsaufgabe unter Blicküberwachung, die nur eine einzelne Bilderrahmen-Annotation (als Blick-Annotation bezeichnet) für jede Abfrage erfordert. Unter dieser Voraussetzung schlagen wir ein dynamisches Gaußsches Vorwissen-basiertes Verortungsframework mit Blick-Annotation (D3G) vor, das aus einem Modul für semantische Ausrichtung und Gruppenkontrastives Lernen (Semantic Alignment Group Contrastive Learning, SA-GCL) und einem Modul zur dynamischen Anpassung des Gaußschen Vorwissens (Dynamic Gaussian prior Adjustment, DGA) besteht. Insbesondere sampelt SA-GCL verlässliche positive Momente aus einer 2D-Zeitkarte durch gemeinsame Nutzung von Gaußschem Vorwissen und semantischer Konsistenz, was dazu beiträgt, die positiven Satz-Moment-Paare im gemeinsamen Einbettungsraum auszurichten. Darüber hinaus zur Minderung der durch Blick-Annotation verursachten Annotationsschwankungen und zur Modellierung komplexer Abfragen, die mehrere Ereignisse umfassen, schlagen wir das DGA-Modul vor, das die Verteilung dynamisch anpasst, um die tatsächlichen Werte der Zielmomente anzunähern. Ausführliche Experimente auf drei anspruchsvollen Benchmarks bestätigen die Effektivität des vorgeschlagenen D3G. Es übertreffen schwach überwachte Methoden des aktuellen Standes der Technik deutlich und verringern den Leistungsniveauunterschied im Vergleich zu vollständig überwachten Methoden. Der Quellcode ist unter https://github.com/solicucu/D3G verfügbar.

D3G: Erkundung von Gaußschen A-priori-Verteilungen für die zeitliche Anbindung von Sätzen mit Blickannotierung | Neueste Forschungsarbeiten | HyperAI