vor 7 Monaten

Zusammenfassung

Die Suche nach Algorithmen, die kognitive Fähigkeiten ermöglichen, ist ein wichtiger Bestandteil des maschinellen Lernens. Ein gemeinsames Merkmal vieler kognitionsähnlicher Aufgaben, die kürzlich untersucht wurden, besteht darin, dass sie verschiedene Datamodalitäten berücksichtigen, wie zum Beispiel visuelle und textuelle Eingaben. In dieser Arbeit schlagen wir eine neuartige und allgemein anwendbare Form eines Aufmerksamkeitsmechanismus vor, der hochwertige Korrelationen zwischen verschiedenen Datamodalitäten lernt. Wir zeigen, dass diese hochwertigen Korrelationen die Aufmerksamkeit effektiv auf die relevanten Elemente in den verschiedenen Datamodalitäten lenken, die für die Lösung der gemeinsamen Aufgabe erforderlich sind. Wir demonstrieren die Effektivität unseres hochwertigen Aufmerksamkeitsmechanismus am Beispiel der visuellen Fragebeantwortung (VQA), bei der wir auf dem Standard-VQA-Datensatz Spitzenleistungen erzielen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Multimodal

Multimodale Darstellung

Multimodal

Aufgabe

Idan Schwartz Alexander G. Schwing Tamir Hazan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Multimodal

Multimodale Darstellung

Multimodal

Aufgabe

Idan Schwartz Alexander G. Schwing Tamir Hazan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Hochordnungs-Aufmerksamkeitsmodelle für visuelle Fragebeantwortung

Idan Schwartz Alexander G. Schwing Tamir Hazan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Hochordnungs-Aufmerksamkeitsmodelle für visuelle Fragebeantwortung

Idan Schwartz Alexander G. Schwing Tamir Hazan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Hochordnungs-Aufmerksamkeitsmodelle für visuelle Fragebeantwortung

Idan Schwartz Alexander G. Schwing Tamir Hazan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters