HyperAIHyperAI

Command Palette

Search for a command to run...

GIT: Ein generativer Bild-zu-Text-Transformer für Vision und Sprache

Jianfeng Wang Zhengyuan Yang Xiaowei Hu Linjie Li Kevin Lin Zhe Gan Zicheng Liu Ce Liu Lijuan Wang

Zusammenfassung

In diesem Paper entwerfen und trainieren wir einen generativen Bild-zu-Text-Transformer, namens GIT, um visuelle Sprachaufgaben wie Bild- oder Videobeschreibung sowie Fragenbeantwortung zu vereinheitlichen. Während generative Modelle eine konsistente Netzarchitektur zwischen Prätrainierung und Feinabstimmung bieten, basieren bestehende Ansätze typischerweise auf komplexen Strukturen (uni-/multimodale Encoder/Decoder) und setzen externe Module wie Objektdetektoren, Tagger oder optische Zeichenerkennung (OCR) voraus. In GIT vereinfachen wir die Architektur zu einem einzigen Bild-Encoder und einem einzigen Text-Decoder, die unter einer einzigen Sprachmodellierungsaufgabe arbeiten. Zudem skalieren wir die Prätrainingsdatenmenge und die Modellgröße erheblich, um die Leistungsfähigkeit des Modells zu steigern. Ohne zusätzliche Komplexitäten erreicht unser GIT neue SOTA-Ergebnisse auf 12 anspruchsvollen Benchmarks mit deutlichem Abstand. Beispielsweise übertrifft unser Modell erstmals die menschliche Leistung auf TextCaps (138,2 gegenüber 125,5 in CIDEr). Darüber hinaus präsentieren wir ein neues Verfahren zur generativen Bildklassifikation und Szenentexterkennung, das auf Standardbenchmarks beachtliche Ergebnisse erzielt. Der Quellcode ist unter \url{https://github.com/microsoft/GenerativeImage2Text} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp