HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End Lernen visueller Repräsentationen aus unsortierten Anleitungsvideos

Antoine Miech∗ Jean-Baptiste Alayrac∗ Lucas Smaira2 Ivan Laptev1 Josef Sivic1,3 Andrew Zisserman2,4

Zusammenfassung

Die Annotation von Videos ist mühsam, teuer und nicht skaliierbar. Dennoch basieren viele leistungsfähige Videomodelle weiterhin auf manuell annotierten Daten. Mit der kürzlichen Einführung des HowTo100M-Datensatzes bieten erzählte Videos nun die Möglichkeit, Video-Darstellungen ohne manuelle Überwachung zu lernen. In dieser Arbeit schlagen wir einen neuen Lernansatz vor, MIL-NCE, der in der Lage ist, die in erzählten Videos inhärenten Fehlanpassungen zu bewältigen. Mit diesem Ansatz können wir robuste Video-Darstellungen von Grund auf neu erlernen, ohne dass manuelle Annotationen erforderlich sind. Wir evaluieren unsere Darstellungen anhand einer Vielzahl von vier nachgelagerten Aufgaben über acht Datensätze: Aktionserkennung (HMDB-51, UCF-101, Kinetics-700), Text-zu-Video-Retrieval (YouCook2, MSR-VTT), Aktionsskalierung (YouTube-8M Segments, CrossTask) und Aktionssegmentierung (COIN). Unsere Methode übertrifft alle veröffentlichten selbstüberwachten Ansätze für diese Aufgaben sowie mehrere vollständig überwachte Baseline-Methoden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp