HyperAIHyperAI

Command Palette

Search for a command to run...

Latente Ausrichtung prozeduraler Konzepte in multimodalen Rezepten

Hossein Rajaby Faghihi Roshanak Mirzaee Sudarshan Paliwal Parisa Kordjamshidi

Zusammenfassung

Wir stellen einen neuartigen Ausrichtungsmechanismus vor, um prozedurales Schließen auf einem kürzlich veröffentlichten multimodalen QA-Datensatz namens RecipeQA zu bewältigen. Unser Modell löst die textuelle Lückentextaufgabe, also eine Leseverständnisaufgabe auf Rezepten, die sowohl Bilder als auch Anweisungen enthalten. Wir nutzen die Stärke von Aufmerksamkeitsnetzwerken, cross-modalen Darstellungen sowie eines latenten Ausrichtungsraums zwischen Anweisungen und möglichen Antwortkandidaten, um das Problem zu lösen. Wir führen eine eingeschränkte Max-Pooling-Operation ein, die die Max-Pooling-Operation auf der Ausrichtungsmatrix verfeinert, um disjunkte Einschränkungen zwischen den Ausgaben des Modells zu gewährleisten. Unsere Evaluierungsergebnisse zeigen eine Verbesserung um 19 % gegenüber den Baseline-Modellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Latente Ausrichtung prozeduraler Konzepte in multimodalen Rezepten | Paper | HyperAI