Prompt Pre-Training mit Zweiundzwanzigtausend Klassen für offene-Vokabular-Bilderkennung

Diese Arbeit stellt POMP vor, eine Prompt-Vortrainierungs-Methode für visuell-sprachliche Modelle. POMP ist speichereffizient und rechenleistungsoptimiert und ermöglicht es dem gelernten Prompt, semantische Informationen für eine Vielzahl visueller Konzepte mit über zwanzigtausend Klassen zu verdichten. Nach dem Vortraining kann der Prompt, der über eine starke Übertragbarkeit verfügt, direkt in eine Vielzahl visueller Erkennungsaufgaben – einschließlich Bildklassifikation, semantischer Segmentierung und Objekterkennung – integriert werden, um die Erkennungsleistung im Zero-Shot-Szenario zu steigern. Empirische Evaluierungen zeigen, dass POMP auf 21 Datensätzen Spitzenleistungen erzielt, beispielsweise eine durchschnittliche Genauigkeit von 67,0 % auf zehn Klassifikationsdatensätzen (+3,1 % gegenüber CoOp) und einen hIoU-Wert von 84,4 bei der offenen-Vokabular-Segmentierung auf Pascal VOC (+6,9 gegenüber ZSSeg). Der Quellcode ist unter https://github.com/amazon-science/prompt-pretraining verfügbar.