Dynamische selbstadaptierende multiskalige Distillation aus vortrainierten multimodalen LLMs für effiziente cross-modale Repräsentationslernung

In den letzten Jahren haben vortrainierte multimodale Großmodelle aufgrund ihrer herausragenden Leistung in verschiedenen multimodalen Anwendungen erhebliche Aufmerksamkeit erlangt. Dennoch stellen die umfangreichen Rechenressourcen und großen Datensätze, die für ihre Ausbildung erforderlich sind, erhebliche Hürden für die Implementierung in Umgebungen mit begrenzten Rechenressourcen dar. Um diese Herausforderung anzugehen, schlagen wir erstmals eine neuartige dynamische selbstadaptierende multiskalige Distillation aus vortrainierten multimodalen Großmodellen zur effizienten cross-modalen Repräsentationslernung vor. Im Gegensatz zu bestehenden Distillationsmethoden nutzt unsere Strategie einen multiskaligen Ansatz, der die Extraktion struktureller Kenntnisse aus dem vortrainierten multimodalen Großmodell ermöglicht und sicherstellt, dass das Schülermodell eine umfassende und fein abgestimmte Auffassung des Lehrerwissens erbt. Um jede Distillationsverlustfunktion balanciert und effizient zu optimieren, führen wir einen dynamischen selbstadaptierenden Distillationsverlust-Balancer ein, eine neuartige Komponente, die die manuelle Anpassung von Verlustgewichten überflüssig macht und die Verlustanteile während des gesamten Distillationsprozesses dynamisch ausbalanciert. Unser Ansatz vereinfacht vortrainierte multimodale Großmodelle ausschließlich anhand ihrer Ausgabefeatures und ursprünglicher bilddimensionaler Informationen, wodurch nur minimale Rechenressourcen benötigt werden. Diese effiziente Methode eignet sich für vielfältige Anwendungen und ermöglicht die Implementierung fortschrittlicher multimodaler Technologien auch in ressourcenbeschränkten Umgebungen. Umfangreiche Experimente haben gezeigt, dass unsere Methode eine hohe Leistung beibehält, während gleichzeitig die Modellkomplexität und die Trainingskosten erheblich reduziert werden. Darüber hinaus erreicht unser abgeleitetes Schülermodell mit lediglich bilddimensionaler Information eine state-of-the-art-Leistung bei cross-modalen Retrieval-Aufgaben und übertrifft damit frühere Methoden, die auf regionenbasierten Informationen angewiesen waren.