vor 6 Monaten

Zusammenfassung

Die Segmentierung von Akteuren und Aktionen in Videos unter Verwendung sprachlicher Abfragen zielt darauf ab, die im Text beschriebenen Objekte innerhalb des Videos zu identifizieren und zu segmentieren. Dieser Prozess erfordert umfassende sprachliche Schlussfolgerung sowie eine fein granulare Verständnis von Videoinhalten. Bisherige Ansätze nutzen hauptsächlich dynamische Faltungsnetzwerke, um visuelle und semantische Darstellungen zu verbinden. Allerdings vernachlässigt die dynamische Faltung bei der Verarbeitung jedes Bereichs innerhalb eines Bildes den räumlichen Kontext, was die Segmentierung ähnlicher Objekte in komplexen Szenarien erschwert. Um diesen Einschränkungen entgegenzuwirken, stellen wir ein kontextmoduliertes dynamisches Faltungsnetzwerk vor. Konkret führen wir in dem vorgeschlagenen Framework eine kontextmodulierte dynamische Faltung ein. Die Faltungskerne für einen bestimmten Bereich werden sowohl aus sprachlichen Sätzen als auch aus den umgebenden Kontextmerkmalen generiert. Zudem entwickeln wir einen zeitlichen Encoder, um Bewegungsinformationen in die visuellen Merkmale einzubinden, um die Übereinstimmung mit den Abfragebeschreibungen weiter zu verbessern. Umfassende Experimente auf zwei etablierten Datensätzen, dem Actor-Action Dataset Sentences (A2D Sentences) und dem J-HMDB Sentences, zeigen, dass unser vorgeschlagener Ansatz die derzeit besten Methoden deutlich übertrifft.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Videobegreifen

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Yi Yang Fan Ma Cheng Deng Hao Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Videobegreifen

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Yi Yang Fan Ma Cheng Deng Hao Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Kontextmodulierte dynamische Netzwerke für die Aktions- und Aktor-Segmentierung von Videos mit Sprachanfragen

Yi Yang Fan Ma Cheng Deng Hao Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kontextmodulierte dynamische Netzwerke für die Aktions- und Aktor-Segmentierung von Videos mit Sprachanfragen

Yi Yang Fan Ma Cheng Deng Hao Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kontextmodulierte dynamische Netzwerke für die Aktions- und Aktor-Segmentierung von Videos mit Sprachanfragen

Yi Yang Fan Ma Cheng Deng Hao Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters