Die Leistung kleiner multimodaler Inferenzmodelle durch Selbstkonsistenztraining erhöhen, um größere Modelle zu erreichen

Die multimodale Inferenz ist eine anspruchsvolle Aufgabe, die von Modellen verlangt, über mehrere Modalitäten hinweg zu schließen, um Fragen zu beantworten. Bestehende Ansätze haben Fortschritte erzielt, indem sie sprachliche und visuelle Modalitäten in einen zweistufigen Inferenzrahmen einbeziehen, wobei die Erstellung von Begründungen von der Antwortinferenz getrennt wird. Dennoch reichen diese Ansätze oft nicht aus aufgrund der unzureichenden Qualität der generierten Begründungen. In dieser Arbeit untersuchen wir die Bedeutung von Begründungen im Prozess des Modellinfernens. Wir stellen fest, dass die Genauigkeit des Modells erheblich steigt, wenn die Begründungen vollständig korrekt sind. Dies unterstreicht die Notwendigkeit hochwertiger Begründungsgenerierung. Angeregt durch diese Beobachtung schlagen wir MC-CoT vor, eine Trainingsstrategie zur Selbstkonsistenz, die mehrere Begründungen und Antworten generiert und anschließend durch ein Abstimmungsverfahren die genaueste auswählt. Diese Methode verbessert nicht nur die Qualität der generierten Begründungen, sondern führt auch zu genauereren und robusteren Antworten. Durch umfangreiche Experimente zeigen wir, dass unser Ansatz die Leistung des Modells bei verschiedenen Benchmarks erheblich steigert. Auffällig ist dabei, dass sogar kleinere Basismodelle mit unserem vorgeschlagenen Ansatz Ergebnisse erzielen können, die denen größerer Modelle entsprechen. Dies verdeutlicht das Potenzial unseres Ansatzes zur Nutzung der Kraft von Begründungen für verbesserte multimodale Inferenz. Der Quellcode ist unter https://github.com/chengtan9907/mc-cot verfügbar.