HyperAIHyperAI
vor 2 Monaten

SAMWISE: Weisheit in SAM2 für textbasierte Video-Segmentierung einfließen lassen

Claudia Cuttano; Gabriele Trivigno; Gabriele Rosi; Carlo Masone; Giuseppe Averta
SAMWISE: Weisheit in SAM2 für textbasierte Video-Segmentierung einfließen lassen
Abstract

Referring Video Object Segmentation (RVOS) basiert auf natürlichsprachlichen Ausdrücken zur Segmentierung eines Objekts in einem Videoclip. Bestehende Methoden beschränken das Schließen entweder auf unabhängige kurze Clips, wodurch der globale Kontext verloren geht, oder sie verarbeiten das gesamte Video offline, was ihre Anwendung in Streaming-Szenarien beeinträchtigt. In dieser Arbeit zielen wir darauf ab, diese Einschränkungen zu überwinden und eine RVOS-Methode zu entwickeln, die effektiv in streaming-ähnlichen Szenarien arbeiten kann, während sie gleichzeitig kontextuelle Informationen aus früheren Frames beibehält. Wir bauen auf dem Segment-Anything 2 (SAM2)-Modell auf, das robuste Segmentierungs- und Trackingfähigkeiten bietet und sich natürlich für die Streaming-Verarbeitung eignet. Wir machen SAM2 schlauer, indem wir ihm natürlichsprachliches Verständnis und explizites zeitliches Modellieren im Feature-Extraktionsstadium verleihen, ohne dessen Gewichte feinzujustieren und ohne die Modalitätsinteraktion externen Modellen zu übertragen. Zu diesem Zweck führen wir ein neues Adaptermodul ein, das zeitliche Informationen und multimodale Hinweise in den Feature-Extraktionsprozess einbringt. Wir legen zudem das Phänomen des Trackingverzerrung bei SAM2 offen und schlagen ein lernfähiges Modul vor, um den Fokus des Trackings anzupassen, wenn die Merkmale des aktuellen Frames einen neuen Gegenstand nahelegen, der besser mit der Beschriftung übereinstimmt. Unsere vorgeschlagene Methode SAMWISE erzielt den Stand der Technik in verschiedenen Benchmarks durch Hinzufügen einer vernachlässigbaren Overhead von weniger als 5 M Parametern. Der Quellcode ist unter https://github.com/ClaudiaCuttano/SAMWISE verfügbar.

SAMWISE: Weisheit in SAM2 für textbasierte Video-Segmentierung einfließen lassen | Neueste Forschungsarbeiten | HyperAI