Latente Ausrichtung prozeduraler Konzepte in multimodalen Rezepten

Wir stellen einen neuartigen Ausrichtungsmechanismus vor, um prozedurales Schließen auf einem kürzlich veröffentlichten multimodalen QA-Datensatz namens RecipeQA zu bewältigen. Unser Modell löst die textuelle Lückentextaufgabe, also eine Leseverständnisaufgabe auf Rezepten, die sowohl Bilder als auch Anweisungen enthalten. Wir nutzen die Stärke von Aufmerksamkeitsnetzwerken, cross-modalen Darstellungen sowie eines latenten Ausrichtungsraums zwischen Anweisungen und möglichen Antwortkandidaten, um das Problem zu lösen. Wir führen eine eingeschränkte Max-Pooling-Operation ein, die die Max-Pooling-Operation auf der Ausrichtungsmatrix verfeinert, um disjunkte Einschränkungen zwischen den Ausgaben des Modells zu gewährleisten. Unsere Evaluierungsergebnisse zeigen eine Verbesserung um 19 % gegenüber den Baseline-Modellen.