Training für Vielfalt in der Bild-Paragraph-Kommentierung

Bildabsatz-Kommentarmodelle zielen darauf ab, detaillierte Beschreibungen eines Quellbildes zu generieren. Diese Modelle nutzen ähnliche Techniken wie herkömmliche Bildkommentarmodelle, stoßen jedoch bei der Textgenerierung auf Probleme, insbesondere auf mangelnde Vielfalt zwischen Sätzen, was ihre Wirksamkeit einschränkt. In dieser Arbeit untersuchen wir den Einsatz von sequenzbasiertem Training für diese Aufgabe. Wir stellen fest, dass das herkömmliche selbstkritische Training schlechte Ergebnisse liefert, jedoch erheblich bessere Ergebnisse erzielt, wenn es mit einem integrierten Strafterm für Trigramm-Wiederholungen kombiniert wird. Dieser einfache Trainingsansatz verbessert das bisher beste Ergebnis auf dem Visual Genome-Absatz-Kommentar-Datensatz von 16,9 auf 30,6 CIDEr und zeigt zudem Verbesserungen bei METEOR und BLEU, ohne dass Änderungen an der Architektur erforderlich sind.