Multimodales Few-Shot Learning mit gefrorenen Sprachmodellen

Wenn autoregressive Sprachmodelle in ausreichendem Umfang trainiert werden, zeigen sie die bemerkenswerte Fähigkeit, nach einer nur wenigen Beispielen vorgegebenen Prompting-Aufgabe eine neue Sprachaufgabe zu erlernen. Hier präsentieren wir einen einfachen, jedoch wirksamen Ansatz zur Übertragung dieser Few-Shot-Lernfähigkeit auf einen multimodalen Kontext (Bild und Sprache). Unter Verwendung von ausgerichteten Bilddaten und zugehörigen Beschreibungen trainieren wir einen Bildencoder, um jedes Bild als Sequenz kontinuierlicher Embeddings darzustellen, sodass ein vortrainiertes, fixiertes Sprachmodell, das mit diesem Präfix präpariert wird, die entsprechende Beschreibung generiert. Das resultierende System ist ein multimodaler Few-Shot-Lerner, der die überraschende Fähigkeit besitzt, eine Vielzahl neuer Aufgaben zu erlernen, wenn es auf Beispiele konditioniert wird, die als Sequenz mehrerer abwechselnder Bild- und Text-Embeddings dargestellt werden. Wir zeigen, dass es in kurzer Zeit neue Objektbezeichnungen und neue visuelle Kategorien erlernen kann, visuelle Fragen beantworten kann, selbst mit nur wenigen Beispielen, und zudem außerhalb des Modells liegende Wissensinhalte nutzen kann, indem wir ein einziges Modell auf einer Vielzahl etablierter und neuer Benchmarks bewerten.