vor 2 Monaten

Erklärbares und explizites visuelles Schließen über Szenengraphen

Jiaxin Shi; Hanwang Zhang; Juanzi Li

Abstract

Unsere Ziel ist es, die weit verbreiteten Black-Box-Neuronalen Architekturen, die bei komplexen visuellen Schließleistungsaufgaben eingesetzt werden, in die vorgeschlagenen erklärbaren und expliziten Neuronalen Module (eXplainable and eXplicit Neural Modules, XNMs) zu zerlegen. Diese Module gehen über bestehende neurale Modulnetzwerke hinaus und nutzen Szenengraphen – Objekte als Knoten und paarweise Beziehungen als Kanten – für eine erklärbare und explizite Schließleistung mit strukturiertem Wissen. Die XNMs ermöglichen es uns, uns stärker auf das "Denken" der Maschinen zu konzentrieren, unabhängig davon, wie sie "aussehen". Wie wir im Paper zeigen werden, können wir durch den Einsatz von Szenengraphen als induktiver Bias 1) die XNMs prägnant und flexibel gestalten, d.h., XNMs bestehen lediglich aus 4 Metatypen, was die Anzahl der Parameter um ein Zehnfaches bis Hundertfaches reduziert, und 2) den Schließleistungsfluss in Form von Graphenaufmerksamkeiten explizit nachverfolgen. Die XNMs sind so generisch, dass sie eine breite Palette von Szenengraphimplementierungen unterschiedlicher Qualität unterstützen. Zum Beispiel erreichen XNMs bei perfekt detektierten Graphen eine Genauigkeit von 100 % sowohl auf CLEVR als auch auf CLEVR CoGenT und legen damit eine empirische Leistungsobergrenze für visuelle Schließleistung fest; bei noisy detektierten Graphen aus realen Bildern bleiben XNMs robust und erreichen immer noch eine wettbewerbsfähige Genauigkeit von 67,5 % auf VQAv2.0, was die populären Aufmerksamkeitsmodelle ohne Graphstruktur übertreffen.请注意，这里的“noisy”是指检测到的图存在噪声或不准确性，因此在德语中可以翻译为“noisy detektierten”以保持原意。