HyperAIHyperAI
vor 2 Monaten

OST: Verfeinern von Textwissen mit einem optimalen räumlich-zeitlichen Deskriptor für die allgemeine Videobearbeitung

Tongjia Chen; Hongshan Yu; Zhengeng Yang; Zechuan Li; Wei Sun; Chen Chen
OST: Verfeinern von Textwissen mit einem optimalen räumlich-zeitlichen Deskriptor für die allgemeine Videobearbeitung
Abstract

Aufgrund der ressourcenintensiven Natur des Trainings von Vision-Sprach-Modellen anhand umfangreicher Video-Daten haben die meisten Studien sich auf die Anpassung vortrainierter Bild-Sprach-Modelle an den Videobereich konzentriert. Dominante Pipelines schlagen vor, die visuellen Unterschiede durch zusätzliche zeitliche Lernmodule zu bewältigen, während sie die erheblichen Diskrepanzen zwischen webmasstabsbeschreibenden Erzählungen und prägnanten Aktionenkategorienamen vernachlässigen. Dies führt zu einem weniger deutlichen semantischen Raum und potenziellen Leistungsbeschränkungen. In dieser Arbeit priorisieren wir die Verfeinerung von Textwissen, um eine übertragbare Videoklassifizierung zu fördern. Um die Beschränkungen des weniger deutlichen semantischen Raums der Kategorienamen anzugehen, fordern wir ein großes Sprachmodell (LLM) auf, Aktionklassennamen in räumlich-zeitliche Deskriptoren zu erweitern. Dies schließt die textuelle Diskrepanz und dient als Wissensbasis für allgemeine Klassifizierung. Darüber hinaus, um die besten Deskriptoren verschiedenen Videoinstanzen zuzuordnen, schlagen wir einen Optimalen Deskriptor-Löser vor, der das Problem der Videoklassifizierung als Optimierung des besten Zuordnungsflusses zwischen rahmengemäß repräsentierten Daten und Deskriptoren formuliert. Umfassende Bewertungen im Bereich der Null-Shot-, Few-Shot- und vollständig überwachten Videoklassifizierung unterstreichen die Effektivität unseres Ansatzes. Unser bestes Modell erreicht eine Stand-of-the-Art Null-Shot-Akkuratesse von 75,1 % auf Kinetics-600.

OST: Verfeinern von Textwissen mit einem optimalen räumlich-zeitlichen Deskriptor für die allgemeine Videobearbeitung | Neueste Forschungsarbeiten | HyperAI