HyperAIHyperAI

Command Palette

Search for a command to run...

Prompt Pre-Training mit Zweiundzwanzigtausend Klassen für offene-Vokabular-Bilderkennung

Shuhuai Ren Aston Zhang Yi Zhu Shuai Zhang Shuai Zheng Mu Li Alex Smola Xu Sun

Zusammenfassung

Diese Arbeit stellt POMP vor, eine Prompt-Vortrainierungs-Methode für visuell-sprachliche Modelle. POMP ist speichereffizient und rechenleistungsoptimiert und ermöglicht es dem gelernten Prompt, semantische Informationen für eine Vielzahl visueller Konzepte mit über zwanzigtausend Klassen zu verdichten. Nach dem Vortraining kann der Prompt, der über eine starke Übertragbarkeit verfügt, direkt in eine Vielzahl visueller Erkennungsaufgaben – einschließlich Bildklassifikation, semantischer Segmentierung und Objekterkennung – integriert werden, um die Erkennungsleistung im Zero-Shot-Szenario zu steigern. Empirische Evaluierungen zeigen, dass POMP auf 21 Datensätzen Spitzenleistungen erzielt, beispielsweise eine durchschnittliche Genauigkeit von 67,0 % auf zehn Klassifikationsdatensätzen (+3,1 % gegenüber CoOp) und einen hIoU-Wert von 84,4 bei der offenen-Vokabular-Segmentierung auf Pascal VOC (+6,9 gegenüber ZSSeg). Der Quellcode ist unter https://github.com/amazon-science/prompt-pretraining verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp