HyperAIHyperAI

Command Palette

Search for a command to run...

Trennen des „Chirps“ vom „Chat“: Selbstüberwachtes visuelles Ankerung von Klang und Sprache

Mark Hamilton Andrew Zisserman John R. Hershey William T. Freeman

Zusammenfassung

Wir stellen DenseAV vor, eine neuartige Dual-Encoder-Grounding-Architektur, die hochaufgelöste, semantisch bedeutsame und audiovisuell ausgerichtete Merkmale ausschließlich durch das Betrachten von Videos lernt. Wir zeigen, dass DenseAV in der Lage ist, die „Bedeutung“ von Wörtern und die „Position“ von Geräuschen ohne explizite Lokalisierungsüberwachung zu entdecken. Darüber hinaus kann sie diese beiden Arten von Assoziationen automatisch erkennen und voneinander unterscheiden, ohne überwacht zu werden. Wir demonstrieren, dass DenseAVs Lokalisierungsfähigkeiten auf einem neuen Multi-Head-Feature-Aggregation-Operator basieren, der dichte Bild- und Audio-Darstellungen direkt für kontrastives Lernen vergleicht. Im Gegensatz dazu können viele andere Systeme, die „globale“ Audio- und Video-Darstellungen lernen, weder Wörter noch Geräusche lokalisieren. Schließlich tragen wir zwei neue Datensätze bei, um die Bewertung von AV-Darstellungen durch sprachliche und akustische Anreize verbessertes semantisches Segmentierung zu ermöglichen. Auf diesen und anderen Datensätzen zeigen wir, dass DenseAV in sprachlich und akustisch angeregten semantischen Segmentierungen deutlich besser abschneidet als frühere Ansätze. DenseAV übertreffen den bisherigen Stand der Technik, ImageBind, bei der multimodalen Retrieval mit weniger als halb so vielen Parametern. Projektseite: https://aka.ms/denseav


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp