HyperAIHyperAI
vor 2 Monaten

Bilder Sprechen in Bildern: Ein Allrounder-Maler für Kontextbezogenes Visuelles Lernen

Xinlong Wang; Wen Wang; Yue Cao; Chunhua Shen; Tiejun Huang
Bilder Sprechen in Bildern: Ein Allrounder-Maler für Kontextbezogenes Visuelles Lernen
Abstract

Das kontextbasierte Lernen stellt als neues Paradigma im Bereich der natürlichsprachlichen Verarbeitung (NLP) die Möglichkeit zur Verfügung, dass Modelle sich mit nur wenigen Anweisungen und Beispielen rasch an verschiedene Aufgaben anpassen können. Im Bereich der Computer Vision liegen jedoch die Schwierigkeiten des kontextbasierten Lernens darin, dass die Ausgaberepräsentationen der Aufgaben erheblich variieren, sodass es unklar ist, wie allgemeine Aufgabenanweisungen definiert werden können, die das Vision-Modell verstehen und auf außerdomänen Aufgaben übertragen kann. In dieser Arbeit stellen wir Painter vor, ein allgemeines Modell, das diese Hürden durch eine bildzentrierte Lösung überwindet: Die Ausgabe von Kernvisionaufgaben wird als Bilder neu definiert, und Aufgabenanweisungen werden ebenfalls als Bilder spezifiziert. Mit diesem Ansatz ist unser Trainingsprozess extrem einfach, da er standardmäßiges maskiertes Bildmodellieren auf Kombinationen von Eingangs- und Ausgabebildern durchführt. Dies ermöglicht es dem Modell, Aufgaben unter Berücksichtigung sichtbarer Bildabschnitte auszuführen. Daher können wir während der Inferenz ein Paar von Eingangs- und Ausgabebildern aus derselben Aufgabe als Eingabebedingung verwenden, um anzugeben, welche Aufgabe ausgeführt werden soll. Ohne zusätzliche Komplexität erreicht unser allgemeines Painter vergleichbare Leistungen mit etablierten aufgabenbezogenen Modellen bei sieben repräsentativen Visionaufgaben – vom hochstufigen visuellen Verständnis bis zum niederstufigen Bildverarbeitungsprozess. Darüber hinaus übertrifft Painter bei mehreren anspruchsvollen Aufgaben signifikant jüngere allgemeine Modelle.

Bilder Sprechen in Bildern: Ein Allrounder-Maler für Kontextbezogenes Visuelles Lernen | Neueste Forschungsarbeiten | HyperAI