HyperAIHyperAI
vor 2 Monaten

HERMES: zeitlich-kohärentes langfristiges Verständnis mit Episoden und Semantik

Gueter Josmy Faure; Jia-Fong Yeh; Min-Hung Chen; Hung-Ting Su; Shang-Hong Lai; Winston H. Hsu
HERMES: zeitlich-kohärentes langfristiges Verständnis mit Episoden und Semantik
Abstract

Bestehende Forschung behandelt oft langformige Videos als erweiterte Kurzvideos, was zu mehreren Einschränkungen führt: unzureichender Erfassung von langfristigen Abhängigkeiten, ineffiziente Verarbeitung redundanter Informationen und Fehlschlag bei der Extraktion hochstufiger semantischer Konzepte. Um diese Probleme anzugehen, schlagen wir einen neuen Ansatz vor, der die menschliche Kognition genauer widerspiegelt. Dieses Papier stellt HERMES vor: zeitlich-kohärente Langform-Verständnis mit Episoden und Semantik, ein Modell, das die Akkumulation episodischen Gedächtnisses simuliert, um Aktionenfolgen zu erfassen, und sie mit im Video verteiltem semantischem Wissen verstärkt. Unsere Arbeit macht zwei wesentliche Beiträge: Erstens entwickeln wir einen Episodischen Kompressor (ECO), der effizient wichtige Darstellungen von mikro- bis semi-makroebenen aggregiert und so die Herausforderung der langfristigen Abhängigkeiten bewältigt. Zweitens schlagen wir einen Semantik-Retriever (SeTR) vor, der diese aggregierten Darstellungen durch den Fokus auf den breiteren Kontext mit semantischer Information anreichert und dabei die Dimensionsreduktion der Merkmale drastisch verringert, während relevante makroebene Informationen erhalten bleiben. Dies behebt die Probleme von Redundanz und mangelnder Extraktion hochstufiger Konzepte. Ausführliche Experimente zeigen, dass HERMES sowohl in zero-shot- als auch in voll überwachten Szenarien über mehrere Benchmarks für das Verständnis von Langvideos hinweg stand der Technik entsprechende Leistungen erzielt.

HERMES: zeitlich-kohärentes langfristiges Verständnis mit Episoden und Semantik | Neueste Forschungsarbeiten | HyperAI