HyperAIHyperAI

Command Palette

Search for a command to run...

Das Erlernen von Sprach-Visuellen Einbettungen für das Verständnis von Filmen mit natürlicher Sprache

Atousa Torabi; Niket Tandon; Leonid Sigal

Zusammenfassung

Das Lernen einer gemeinsamen Sprach-Visuellen Einbettung hat eine Reihe sehr ansprechender Eigenschaften und kann zu einer Vielzahl praktischer Anwendungen führen, darunter die natürlichsprachliche Annotation und Suche von Bildern/Videos. In dieser Arbeit untersuchen wir drei verschiedene Architekturen von gemeinsamen sprach-visuellen neuronalen Netzwerken. Wir bewerten unsere Modelle anhand des großen LSMDC16-Filmdatensatzes für zwei Aufgaben: 1) Standard-Ranking für Videoannotation und -retrieval 2) Unser vorgeschlagenes Mehrfachauswahltest für Filme. Dieser Test erleichtert die automatische Bewertung von visuellsprachlichen Modellen für die natürlichsprachliche Videoannotation basierend auf menschlichen Aktivitäten. Neben den ursprünglichen Audiodeskriptionen (AD), die als Teil des LSMDC16 bereitgestellt werden, haben wir gesammelt und werden verfügbar machen: a) manuell erzeugte Umformulierungen dieser Deskriptionen, die über Amazon MTurk erhalten wurden b) automatisch generierte Elemente menschlicher Aktivitäten in „Prädikat + Objekt“ (PO)-Phrasen basierend auf „Knowlywood“, einem Modell zur Minierung von Aktivitätswissen. Unser bestes Modell erreicht einen Recall@10 von 19,2 % bei der Annotation und 18,9 % bei der Videoretrieval-Aufgabe für eine Teilmenge von 1000 Stichproben. Für den Mehrfachauswahltest erreicht unser bestes Modell eine Genauigkeit von 58,11 % über dem gesamten öffentlichen Testdatensatz des LSMDC16.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp