Trennen des „Chirps“ vom „Chat“: Selbstüberwachtes visuelles Ankerung von Klang und Sprache

Wir stellen DenseAV vor, eine neuartige Dual-Encoder-Grounding-Architektur, die hochaufgelöste, semantisch bedeutsame und audiovisuell ausgerichtete Merkmale ausschließlich durch das Betrachten von Videos lernt. Wir zeigen, dass DenseAV in der Lage ist, die „Bedeutung“ von Wörtern und die „Position“ von Geräuschen ohne explizite Lokalisierungsüberwachung zu entdecken. Darüber hinaus kann sie diese beiden Arten von Assoziationen automatisch erkennen und voneinander unterscheiden, ohne überwacht zu werden. Wir demonstrieren, dass DenseAVs Lokalisierungsfähigkeiten auf einem neuen Multi-Head-Feature-Aggregation-Operator basieren, der dichte Bild- und Audio-Darstellungen direkt für kontrastives Lernen vergleicht. Im Gegensatz dazu können viele andere Systeme, die „globale“ Audio- und Video-Darstellungen lernen, weder Wörter noch Geräusche lokalisieren. Schließlich tragen wir zwei neue Datensätze bei, um die Bewertung von AV-Darstellungen durch sprachliche und akustische Anreize verbessertes semantisches Segmentierung zu ermöglichen. Auf diesen und anderen Datensätzen zeigen wir, dass DenseAV in sprachlich und akustisch angeregten semantischen Segmentierungen deutlich besser abschneidet als frühere Ansätze. DenseAV übertreffen den bisherigen Stand der Technik, ImageBind, bei der multimodalen Retrieval mit weniger als halb so vielen Parametern. Projektseite: https://aka.ms/denseav