Visual Commonsense R-CNN

Wir stellen eine neue, unsupervisierte Methode zum Lernen von Merkmalsdarstellungen vor, den Visual Commonsense Region-based Convolutional Neural Network (VC R-CNN), der als verbesserte visuelle Regionen-Encoder für hochlevelige Aufgaben wie Bildbeschreibung (Image Captioning) und Visual Question Answering (VQA) dienen soll. Gegeben eine Menge an detektierten Objektregionen in einem Bild (z. B. mittels Faster R-CNN) verfolgt VC R-CNN wie andere unsupervisierte Merkmalslernmethoden (z. B. word2vec) ein Proxy-Trainingsziel: die Vorhersage der kontextuellen Objekte einer Region. Diese Verfahren unterscheiden sich jedoch grundlegend: Während herkömmliche Ansätze die Vorhersage auf der klassischen Likelihood basieren, also P(Y|X), nutzt VC R-CNN eine kausale Intervention: P(Y|do(X)). Dies ist auch der zentrale Grund dafür, dass VC R-CNN „Sinnzusammenhänge“ erlernen kann – beispielsweise, dass ein Stuhl zum Sitzen geeignet ist – und nicht lediglich „häufige“ Korrelationen wie „Ein Stuhl ist wahrscheinlich vorhanden, wenn ein Tisch gesehen wird“. Wir wenden die VC R-CNN-Merkmale umfassend in etablierten Modellen dreier gängiger Aufgaben an: Image Captioning, VQA und VCR, und beobachten konsistente Leistungssteigerungen in allen Fällen, wodurch zahlreiche neue SOTA (State-of-the-Art)-Ergebnisse erzielt werden. Der Quellcode und die Merkmale sind unter https://github.com/Wangt-CN/VC-R-CNN verfügbar.