HyperAIHyperAI

Command Palette

Search for a command to run...

Die Leistung kleiner multimodaler Inferenzmodelle durch Selbstkonsistenztraining erhöhen, um größere Modelle zu erreichen

Cheng Tan extsuperscript1,4,5 extsuperscript* Jingxuan Wei extsuperscript2,3 extsuperscript* extsuperscript** Zhangyang Gao extsuperscript1,4,5 extsuperscript* Linzhuang Sun extsuperscript2,3 Siyuan Li extsuperscript1,4,5 Ruifeng Guo extsuperscript2,3 Bihui Yu extsuperscript2,3 Stan Z. Li extsuperscript4 extsuperscript** extsuperscript@

Zusammenfassung

Die multimodale Inferenz ist eine anspruchsvolle Aufgabe, die von Modellen verlangt, über mehrere Modalitäten hinweg zu schließen, um Fragen zu beantworten. Bestehende Ansätze haben Fortschritte erzielt, indem sie sprachliche und visuelle Modalitäten in einen zweistufigen Inferenzrahmen einbeziehen, wobei die Erstellung von Begründungen von der Antwortinferenz getrennt wird. Dennoch reichen diese Ansätze oft nicht aus aufgrund der unzureichenden Qualität der generierten Begründungen. In dieser Arbeit untersuchen wir die Bedeutung von Begründungen im Prozess des Modellinfernens. Wir stellen fest, dass die Genauigkeit des Modells erheblich steigt, wenn die Begründungen vollständig korrekt sind. Dies unterstreicht die Notwendigkeit hochwertiger Begründungsgenerierung. Angeregt durch diese Beobachtung schlagen wir MC-CoT vor, eine Trainingsstrategie zur Selbstkonsistenz, die mehrere Begründungen und Antworten generiert und anschließend durch ein Abstimmungsverfahren die genaueste auswählt. Diese Methode verbessert nicht nur die Qualität der generierten Begründungen, sondern führt auch zu genauereren und robusteren Antworten. Durch umfangreiche Experimente zeigen wir, dass unser Ansatz die Leistung des Modells bei verschiedenen Benchmarks erheblich steigert. Auffällig ist dabei, dass sogar kleinere Basismodelle mit unserem vorgeschlagenen Ansatz Ergebnisse erzielen können, die denen größerer Modelle entsprechen. Dies verdeutlicht das Potenzial unseres Ansatzes zur Nutzung der Kraft von Begründungen für verbesserte multimodale Inferenz. Der Quellcode ist unter https://github.com/chengtan9907/mc-cot verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp