HyperAIHyperAI

Command Palette

Search for a command to run...

Visual Commonsense R-CNN

Tan Wang Jianqiang Huang Hanwang Zhang Qianru Sun

Zusammenfassung

Wir stellen eine neue, unsupervisierte Methode zum Lernen von Merkmalsdarstellungen vor, den Visual Commonsense Region-based Convolutional Neural Network (VC R-CNN), der als verbesserte visuelle Regionen-Encoder für hochlevelige Aufgaben wie Bildbeschreibung (Image Captioning) und Visual Question Answering (VQA) dienen soll. Gegeben eine Menge an detektierten Objektregionen in einem Bild (z. B. mittels Faster R-CNN) verfolgt VC R-CNN wie andere unsupervisierte Merkmalslernmethoden (z. B. word2vec) ein Proxy-Trainingsziel: die Vorhersage der kontextuellen Objekte einer Region. Diese Verfahren unterscheiden sich jedoch grundlegend: Während herkömmliche Ansätze die Vorhersage auf der klassischen Likelihood basieren, also P(Y|X), nutzt VC R-CNN eine kausale Intervention: P(Y|do(X)). Dies ist auch der zentrale Grund dafür, dass VC R-CNN „Sinnzusammenhänge“ erlernen kann – beispielsweise, dass ein Stuhl zum Sitzen geeignet ist – und nicht lediglich „häufige“ Korrelationen wie „Ein Stuhl ist wahrscheinlich vorhanden, wenn ein Tisch gesehen wird“. Wir wenden die VC R-CNN-Merkmale umfassend in etablierten Modellen dreier gängiger Aufgaben an: Image Captioning, VQA und VCR, und beobachten konsistente Leistungssteigerungen in allen Fällen, wodurch zahlreiche neue SOTA (State-of-the-Art)-Ergebnisse erzielt werden. Der Quellcode und die Merkmale sind unter https://github.com/Wangt-CN/VC-R-CNN verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp