vor 6 Monaten

Zusammenfassung

Die Erzeugung stilistisch geprägter Bildunterschriften ist eine anspruchsvolle Aufgabe, da nicht nur der Inhalt des Bildes präzise beschrieben werden muss, sondern auch der gewünschte sprachliche Stil angemessen umgesetzt werden muss. In diesem Paper stellen wir MemCap vor, eine neuartige Methode für stilistische Bildunterschriften, die das Wissen über sprachliche Stile explizit mittels eines Gedächtnismechanismus kodiert. Im Gegensatz zu bestehenden Ansätzen, die stark auf Sprachmodelle zurückgreifen, um Stilmerkmale zu erfassen, speichert unsere Methode stilistische Elemente, die aus dem Trainingskorpus gelernt wurden. Insbesondere entwerfen wir ein Gedächtnis-Modul, das aus einer Reihe von Embedding-Vektoren besteht, die zur Kodierung stilrelevanter Phrasen im Trainingskorpus dienen. Um stilrelevante Phrasen zu identifizieren, entwickeln wir einen Satz-Zerlegungsalgorithmus, der einen stilistisch geprägten Satz in einen stilrelevanten Teil – der den sprachlichen Stil widerspiegelt – und einen inhaltsrelevanten Teil – der die visuelle Inhaltsinformation enthält – aufteilt. Bei der Generierung von Untertiteln extrahiert MemCap zunächst über eine Aufmerksamkeitsmechanik stilrelevante Inhalte aus dem Gedächtnis-Modul und integriert diese anschließend in ein Sprachmodell. Umfassende Experimente auf zwei stilistisch geprägten Bildunterschriften-Datensätzen (SentiCap und FlickrStyle10K) belegen die Wirksamkeit unseres Ansatzes.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Bildbeschreibung

Multimodal

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Xiaoxun Zhang Xinxiao wu Wentian Zhao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Bildbeschreibung

Multimodal

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Xiaoxun Zhang Xinxiao wu Wentian Zhao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MemCap: Stilwissen für die Bildbeschreibung speichern

Xiaoxun Zhang Xinxiao wu Wentian Zhao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MemCap: Stilwissen für die Bildbeschreibung speichern

Xiaoxun Zhang Xinxiao wu Wentian Zhao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MemCap: Stilwissen für die Bildbeschreibung speichern

Xiaoxun Zhang Xinxiao wu Wentian Zhao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters