HyperAIHyperAI

Command Palette

Search for a command to run...

Bilder Sprechen in Bildern: Ein Allrounder-Maler für Kontextbezogenes Visuelles Lernen

Xinlong Wang Wen Wang Yue Cao Chunhua Shen Tiejun Huang

Zusammenfassung

Das kontextbasierte Lernen stellt als neues Paradigma im Bereich der natürlichsprachlichen Verarbeitung (NLP) die Möglichkeit zur Verfügung, dass Modelle sich mit nur wenigen Anweisungen und Beispielen rasch an verschiedene Aufgaben anpassen können. Im Bereich der Computer Vision liegen jedoch die Schwierigkeiten des kontextbasierten Lernens darin, dass die Ausgaberepräsentationen der Aufgaben erheblich variieren, sodass es unklar ist, wie allgemeine Aufgabenanweisungen definiert werden können, die das Vision-Modell verstehen und auf außerdomänen Aufgaben übertragen kann. In dieser Arbeit stellen wir Painter vor, ein allgemeines Modell, das diese Hürden durch eine bildzentrierte Lösung überwindet: Die Ausgabe von Kernvisionaufgaben wird als Bilder neu definiert, und Aufgabenanweisungen werden ebenfalls als Bilder spezifiziert. Mit diesem Ansatz ist unser Trainingsprozess extrem einfach, da er standardmäßiges maskiertes Bildmodellieren auf Kombinationen von Eingangs- und Ausgabebildern durchführt. Dies ermöglicht es dem Modell, Aufgaben unter Berücksichtigung sichtbarer Bildabschnitte auszuführen. Daher können wir während der Inferenz ein Paar von Eingangs- und Ausgabebildern aus derselben Aufgabe als Eingabebedingung verwenden, um anzugeben, welche Aufgabe ausgeführt werden soll. Ohne zusätzliche Komplexität erreicht unser allgemeines Painter vergleichbare Leistungen mit etablierten aufgabenbezogenen Modellen bei sieben repräsentativen Visionaufgaben – vom hochstufigen visuellen Verständnis bis zum niederstufigen Bildverarbeitungsprozess. Darüber hinaus übertrifft Painter bei mehreren anspruchsvollen Aufgaben signifikant jüngere allgemeine Modelle.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp