Neuronale Prompt-Suche

Die Größe von Vision-Modellen ist in den letzten Jahren exponentiell angestiegen, insbesondere nach der Einführung des Vision Transformer. Dies hat die Entwicklung parameter-effizienter Anpassungsmethoden motiviert, wie beispielsweise das Lernen von Adapter-Schichten oder visuellen Prompt-Token, bei denen lediglich ein kleiner Teil der Modellparameter trainiert wird, während der überwiegende Teil aus der vortrainierten Version fixiert bleibt. Die Gestaltung einer geeigneten Anpassungsmethode ist jedoch keineswegs trivial: Es erfordert oft eine lange Liste möglicher Designentscheidungen, und jedes nachgeschaltete Datenset erfordert häufig maßgeschneiderte Lösungen. In diesem Artikel betrachten wir bestehende parameter-effiziente Anpassungsmethoden als sogenannte „Prompt-Module“ und stellen NOAH (Neural prOmpt seArcH) vor – einen neuartigen Ansatz, der mithilfe eines neuronalen Architektursuchalgorithmus für große Vision-Modelle die optimale Gestaltung von Prompt-Modulen speziell für jedes nachgeschaltete Datenset lernt. Durch umfangreiche Experimente auf über 20 Vision-Datensätzen zeigen wir, dass NOAH (i) die Leistung einzelner Prompt-Module übertrifft, (ii) eine gute Few-Shot-Lernfähigkeit aufweist und (iii) gut verallgemeinerungsfähig ist. Der Quellcode und die Modelle sind unter https://github.com/Davidzhangyuanhan/NOAH verfügbar.