HiCM²: Hierarchische kompakte Speichermodellierung für dichtes Video-Captioning

Mit dem wachsenden Bedarf an Lösungen für reale Videoherausforderungen nimmt das Interesse an dichtem Videokommentieren (DVC) zu. DVC beinhaltet die automatische Beschriftung und Lokalisierung von ungeschnittenen Videos. Mehrere Studien betonen die Herausforderungen des DVC und stellen verbesserte Methoden vor, die auf Vorwissen wie Vortraining und externem Gedächtnis basieren. In dieser Forschung schlagen wir ein Modell vor, das das menschliche hierarchische kompakte Gedächtnis nutzt, inspiriert durch die Hierarchie des menschlichen Gedächtnisses und die Kognition. Um eine menschenähnliche Erinnerungsabfrage nachzubilden, konstruieren wir ein hierarchisches Gedächtnis und ein hierarchisches Gedächtnislesemodul. Wir bauen ein effizientes hierarchisches kompaktes Gedächtnis auf, indem wir Clustering von Gedächnisevents und Zusammenfassung mit Hilfe großer Sprachmodelle verwenden. Vergleichsexperimente zeigen, dass dieser hierarchische Erinnerungsabfrageprozess die Leistung des DVC verbessert, indem er den aktuellen Stand der Technik auf den Datensätzen YouCook2 und ViTT erreicht.