vor 6 Monaten

Zusammenfassung

Wir stellen einen neuartigen Ausrichtungsmechanismus vor, um prozedurales Schließen auf einem kürzlich veröffentlichten multimodalen QA-Datensatz namens RecipeQA zu bewältigen. Unser Modell löst die textuelle Lückentextaufgabe, also eine Leseverständnisaufgabe auf Rezepten, die sowohl Bilder als auch Anweisungen enthalten. Wir nutzen die Stärke von Aufmerksamkeitsnetzwerken, cross-modalen Darstellungen sowie eines latenten Ausrichtungsraums zwischen Anweisungen und möglichen Antwortkandidaten, um das Problem zu lösen. Wir führen eine eingeschränkte Max-Pooling-Operation ein, die die Max-Pooling-Operation auf der Ausrichtungsmatrix verfeinert, um disjunkte Einschränkungen zwischen den Ausgaben des Modells zu gewährleisten. Unsere Evaluierungsergebnisse zeigen eine Verbesserung um 19 % gegenüber den Baseline-Modellen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Multimodale Darstellung

Hossein Rajaby Faghihi Roshanak Mirzaee Sudarshan Paliwal Parisa Kordjamshidi

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Multimodale Darstellung

Hossein Rajaby Faghihi Roshanak Mirzaee Sudarshan Paliwal Parisa Kordjamshidi

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Latente Ausrichtung prozeduraler Konzepte in multimodalen Rezepten

Hossein Rajaby Faghihi Roshanak Mirzaee Sudarshan Paliwal Parisa Kordjamshidi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Latente Ausrichtung prozeduraler Konzepte in multimodalen Rezepten

Hossein Rajaby Faghihi Roshanak Mirzaee Sudarshan Paliwal Parisa Kordjamshidi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Latente Ausrichtung prozeduraler Konzepte in multimodalen Rezepten

Hossein Rajaby Faghihi Roshanak Mirzaee Sudarshan Paliwal Parisa Kordjamshidi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters