HyperAIHyperAI

Command Palette

Search for a command to run...

Oscar: Objekt-Semantik-Alignierte Vortrainierung für visuelle-Sprach-Aufgaben

Zusammenfassung

Großskalige Vortrainingsmethoden zur Lernung von multimodalen Darstellungen auf Bild-Text-Paaren gewinnen für Aufgaben im Bereich Vision-Language zunehmend an Bedeutung. Während bestehende Ansätze die Bildregionen- und Textmerkmale einfach zusammenfügen, um sie als Eingabe für das Modell zu verwenden, und die semantische Ausrichtung zwischen Bild und Text auf eine rohe, brute-force-Weise mittels Selbst-Attention lernen, schlagen wir in diesem Paper eine neue Lernmethode vor: Oscar (Object-Semantics Aligned Pre-training). Diese Methode nutzt Objektbezeichnungen, die in Bildern detektiert wurden, als Ankerpunkte, um die Lernung der Ausrichtung erheblich zu vereinfachen. Unser Ansatz wird durch die Beobachtung motiviert, dass auffällige Objekte in Bildern präzise detektiert werden können und häufig im zugehörigen Text erwähnt werden. Wir vortrainieren ein Oscar-Modell auf einer öffentlichen Korpus mit 6,5 Millionen Text-Bild-Paaren und feintunen es anschließend auf Aufgaben im Anwendungsbereich, wodurch wir neue State-of-the-Art-Ergebnisse auf sechs etablierten Aufgaben zur Vision-Language-Verständnis und -Generierung erzielen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Oscar: Objekt-Semantik-Alignierte Vortrainierung für visuelle-Sprach-Aufgaben | Paper | HyperAI