HyperAIHyperAI
vor 7 Tagen

GIT: Ein generativer Bild-zu-Text-Transformer für Vision und Sprache

Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang
GIT: Ein generativer Bild-zu-Text-Transformer für Vision und Sprache
Abstract

In diesem Paper entwerfen und trainieren wir einen generativen Bild-zu-Text-Transformer, namens GIT, um visuelle Sprachaufgaben wie Bild- oder Videobeschreibung sowie Fragenbeantwortung zu vereinheitlichen. Während generative Modelle eine konsistente Netzarchitektur zwischen Prätrainierung und Feinabstimmung bieten, basieren bestehende Ansätze typischerweise auf komplexen Strukturen (uni-/multimodale Encoder/Decoder) und setzen externe Module wie Objektdetektoren, Tagger oder optische Zeichenerkennung (OCR) voraus. In GIT vereinfachen wir die Architektur zu einem einzigen Bild-Encoder und einem einzigen Text-Decoder, die unter einer einzigen Sprachmodellierungsaufgabe arbeiten. Zudem skalieren wir die Prätrainingsdatenmenge und die Modellgröße erheblich, um die Leistungsfähigkeit des Modells zu steigern. Ohne zusätzliche Komplexitäten erreicht unser GIT neue SOTA-Ergebnisse auf 12 anspruchsvollen Benchmarks mit deutlichem Abstand. Beispielsweise übertrifft unser Modell erstmals die menschliche Leistung auf TextCaps (138,2 gegenüber 125,5 in CIDEr). Darüber hinaus präsentieren wir ein neues Verfahren zur generativen Bildklassifikation und Szenentexterkennung, das auf Standardbenchmarks beachtliche Ergebnisse erzielt. Der Quellcode ist unter \url{https://github.com/microsoft/GenerativeImage2Text} verfügbar.

GIT: Ein generativer Bild-zu-Text-Transformer für Vision und Sprache | Neueste Forschungsarbeiten | HyperAI