HyperAIHyperAI

Command Palette

Search for a command to run...

AOG-LSTM: Ein adaptives Aufmerksamkeits-Neuronales Netzwerk für visuelle Geschichtenbildung

and Wei Wu Rui Xie Hui Wang Yong Jiang Hai-Tao Zheng Wei Wang Chia-Hao Chang Jiacheng Yang Hanqing Liu

Zusammenfassung

Visual Storytelling ist die Aufgabe, zu einer gegebenen Bildsequenz eine zusammenhängende Geschichte zu generieren, die erhebliche Aufmerksamkeit erfahren hat. Allerdings beschränken allgemeine RNNs (wie LSTM und GRU), die als Decoder eingesetzt werden, die Leistungsfähigkeit der Modelle in diesem Bereich. Dies liegt daran, dass sie nicht in der Lage sind, verschiedene Arten von Informationsdarstellungen zu unterscheiden. Zudem führt die Optimierung der Wahrscheinlichkeiten nachfolgender Wörter unter der Bedingung der vorherigen Ground-Truth-Sequenzen zu einer Fehlerakku­mulation während der Inferenz. Darüber hinaus berücksichtigt die bestehende Methode zur Minderung der Fehlerakku­mulation, die durch Ersetzen von Referenzwörtern erfolgt, nicht die unterschiedlichen Auswirkungen jedes einzelnen Wortes. Um diese Probleme zu lösen, schlagen wir jeweils ein modifiziertes neuronales Netzwerk namens AOG-LSTM und eine modifizierte Trainingsstrategie namens ARS vor. AOG-LSTM kann adaptiv angemessene Aufmerksamkeit auf verschiedene Informationsdarstellungen innerhalb des Modells richten, je nachdem, welches Wort vorhergesagt wird. Während des Trainings ersetzt ARS einige Wörter in den Referenzsätzen durch Modellvorhersagen, ähnlich wie die bestehende Methode. Wir nutzen jedoch ein Selektionsnetzwerk und eine Selektionsstrategie, um geeignetere Wörter für die Ersetzung auszuwählen, um die Modellleistung besser zu verbessern. Experimente auf dem VIST-Datensatz zeigen, dass unser Modell mehrere starke Baselines hinsichtlich der am häufigsten verwendeten Metriken übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp