HyperAIHyperAI
vor 19 Tagen

Latente Ausrichtung prozeduraler Konzepte in multimodalen Rezepten

Hossein Rajaby Faghihi, Roshanak Mirzaee, Sudarshan Paliwal, Parisa Kordjamshidi
Latente Ausrichtung prozeduraler Konzepte in multimodalen Rezepten
Abstract

Wir stellen einen neuartigen Ausrichtungsmechanismus vor, um prozedurales Schließen auf einem kürzlich veröffentlichten multimodalen QA-Datensatz namens RecipeQA zu bewältigen. Unser Modell löst die textuelle Lückentextaufgabe, also eine Leseverständnisaufgabe auf Rezepten, die sowohl Bilder als auch Anweisungen enthalten. Wir nutzen die Stärke von Aufmerksamkeitsnetzwerken, cross-modalen Darstellungen sowie eines latenten Ausrichtungsraums zwischen Anweisungen und möglichen Antwortkandidaten, um das Problem zu lösen. Wir führen eine eingeschränkte Max-Pooling-Operation ein, die die Max-Pooling-Operation auf der Ausrichtungsmatrix verfeinert, um disjunkte Einschränkungen zwischen den Ausgaben des Modells zu gewährleisten. Unsere Evaluierungsergebnisse zeigen eine Verbesserung um 19 % gegenüber den Baseline-Modellen.

Latente Ausrichtung prozeduraler Konzepte in multimodalen Rezepten | Forschungsarbeiten | HyperAI