HyperAIHyperAI

Command Palette

Search for a command to run...

Schauen, Hören und Lernen

Relja Arandjelović†, [email protected] Andrew Zisserman†,∗, [email protected]

Zusammenfassung

Wir betrachten die Fragestellung: Was kann durch das Betrachten und Hören einer großen Anzahl von unbeschrifteten Videos gelernt werden? In den Videos selbst liegt eine wertvolle, bisher jedoch ungenutzte Informationsquelle – die Korrespondenz zwischen den visuellen und akustischen Strömen. Wir führen eine neue Lernaufgabe namens "Audiovisuelle Korrespondenz" (Audio-Visual Correspondence) ein, die diese Informationsquelle nutzt. Es wird gezeigt, dass das Training von visuellen und akustischen Netzen aus dem Grundzustand, ausschließlich mit den rohen, uneingeschränkten Videos als Supervision, diese Aufgabe erfolgreich lösen kann. Interessanterweise ergeben sich dabei gute visuelle und akustische Repräsentationen. Diese Merkmale setzen einen neuen Stand der Technik in zwei Benchmarks für Klangklassifizierung und erreichen vergleichbare Ergebnisse wie die besten selbstüberwachten Ansätze bei der Klassifizierung auf ImageNet. Zudem zeigen wir, dass das Netzwerk in der Lage ist, Objekte in beiden Modalitäten zu lokalisieren sowie feingranulare Erkennungsaufgaben zu bewältigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Schauen, Hören und Lernen | Paper | HyperAI