HyperAIHyperAI

Command Palette

Search for a command to run...

Lernmodelle für Aktionen und Person-Objekt-Interaktionen mit Transfer auf Fragebeantwortung

Arun Mallya Svetlana Lazebnik

Zusammenfassung

Dieses Papier schlägt tief konvolutive Netzwerkmodelle vor, die lokale und globale Kontextinformationen nutzen, um Aktivitätslabels von Menschen in Stillbildern vorherzusagen. Diese Modelle erzielen den aktuellen Stand der Technik auf zwei neueren Datensätzen, die jeweils Hunderte von Labels enthalten. Um das Fehlen von Aufsicht auf der Ebene einzelner Personinstanzen zu bewältigen, verwenden wir das Multiple-Instance-Lernen, und um unbalancierte Trainingsdaten zu handhaben, wenden wir gewichtete Verlustfunktionen an. Darüber hinaus zeigen wir, wie spezialisierte Merkmale, die auf diesen Datensätzen trainiert wurden, verwendet werden können, um die Genauigkeit bei der visuellen Fragebeantwortung (VQA) in Form von mehrfachauswählbaren Lückenfüllfragen (Visual Madlibs) zu verbessern. Insbesondere adressieren wir zwei Arten von Fragen zur Personaktivität und zum Personen-Objekt-Verhältnis und demonstrieren Verbesserungen gegenüber generischen Merkmalen, die für die Klassifizierungsaufgabe des ImageNet-Datensatzes trainiert wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp