HyperAIHyperAI

Command Palette

Search for a command to run...

SAMWISE: Weisheit in SAM2 für textbasierte Video-Segmentierung einfließen lassen

Claudia Cuttano Gabriele Trivigno Gabriele Rosi Carlo Masone Giuseppe Averta

Zusammenfassung

Referring Video Object Segmentation (RVOS) basiert auf natürlichsprachlichen Ausdrücken zur Segmentierung eines Objekts in einem Videoclip. Bestehende Methoden beschränken das Schließen entweder auf unabhängige kurze Clips, wodurch der globale Kontext verloren geht, oder sie verarbeiten das gesamte Video offline, was ihre Anwendung in Streaming-Szenarien beeinträchtigt. In dieser Arbeit zielen wir darauf ab, diese Einschränkungen zu überwinden und eine RVOS-Methode zu entwickeln, die effektiv in streaming-ähnlichen Szenarien arbeiten kann, während sie gleichzeitig kontextuelle Informationen aus früheren Frames beibehält. Wir bauen auf dem Segment-Anything 2 (SAM2)-Modell auf, das robuste Segmentierungs- und Trackingfähigkeiten bietet und sich natürlich für die Streaming-Verarbeitung eignet. Wir machen SAM2 schlauer, indem wir ihm natürlichsprachliches Verständnis und explizites zeitliches Modellieren im Feature-Extraktionsstadium verleihen, ohne dessen Gewichte feinzujustieren und ohne die Modalitätsinteraktion externen Modellen zu übertragen. Zu diesem Zweck führen wir ein neues Adaptermodul ein, das zeitliche Informationen und multimodale Hinweise in den Feature-Extraktionsprozess einbringt. Wir legen zudem das Phänomen des Trackingverzerrung bei SAM2 offen und schlagen ein lernfähiges Modul vor, um den Fokus des Trackings anzupassen, wenn die Merkmale des aktuellen Frames einen neuen Gegenstand nahelegen, der besser mit der Beschriftung übereinstimmt. Unsere vorgeschlagene Methode SAMWISE erzielt den Stand der Technik in verschiedenen Benchmarks durch Hinzufügen einer vernachlässigbaren Overhead von weniger als 5 M Parametern. Der Quellcode ist unter https://github.com/ClaudiaCuttano/SAMWISE verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SAMWISE: Weisheit in SAM2 für textbasierte Video-Segmentierung einfließen lassen | Paper | HyperAI