HyperAIHyperAI

Command Palette

Search for a command to run...

Ausnutzung mehrerer Sequenzlängen bei schnellem End-to-End-Training für Bildbeschreibung

Jia Cheng Hu Roberto Cavicchioli Alessandro Capotondi

Zusammenfassung

Wir stellen eine Methode namens Expansion-Mechanismus vor, die die Eingabe verarbeitet, ohne durch die Anzahl der Elemente in der Sequenz eingeschränkt zu sein. Auf diese Weise kann das Modell effektiver lernen als herkömmliche auf Aufmerksamkeit basierende Ansätze. Um diese Behauptung zu untermauern, entwickeln wir eine neuartige Architektur, ExpansionNet v2, die starke Ergebnisse beim MS COCO 2014 Image Captioning-Wettbewerb erzielt und die State-of-the-Art-Leistung in ihrer Kategorie erreicht: 143,7 CIDErD im offline Testsplit, 140,8 CIDErD im Online-Evaluierungsserver und 72,9 AllCIDEr auf dem nocaps Validierungsset. Zudem führen wir einen End-to-End-Trainingsalgorithmus ein, der bis zu 2,8-mal schneller ist als etablierte Alternativen. Quellcode verfügbar unter: https://github.com/jchenghu/ExpansionNet_v2


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp