HyperAIHyperAI

Command Palette

Search for a command to run...

Gemeinsames Entdecken visueller Objekte und gesprochener Wörter aus roher sensorischer Eingabe

David Harwath Adrià Recasens Dídac Surís Galen Chuang Antonio Torralba James Glass

Zusammenfassung

In dieser Arbeit untersuchen wir neuronale Netzmodelle, die lernen, Segmente von gesprochenen Audio-Kaptionen mit den semantisch relevanten Teilen natürlicher Bilder zu verknüpfen, auf die sie sich beziehen. Wir zeigen, dass diese audiovisuellen assoziativen Lokalisierungen aus den intern gelernten Darstellungen des Netzes hervorgehen, die als Nebenprodukt des Trainings für eine Bild-Audio-Retrieval-Aufgabe entstehen. Unsere Modelle arbeiten direkt mit den Bildpixeln und dem Sprachsignal und benötigen während des Trainings keine konventionelle Überwachung in Form von Labels, Segmentierungen oder Ausrichtungen zwischen den Modalitäten. Wir führen eine Analyse unter Verwendung der Datensätze Places 205 und ADE20k durch, die zeigt, dass unsere Modelle implizit semantisch gekoppelte Objekterkennung und Wörterkennung lernen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Gemeinsames Entdecken visueller Objekte und gesprochener Wörter aus roher sensorischer Eingabe | Paper | HyperAI