HyperAIHyperAI
vor 2 Monaten

Nicht alle Modelle sind gleich: Vorhersage der Modellübertragbarkeit in einem selbst herausfordernden Fisher-Raum

Wenqi Shao; Xun Zhao; Yixiao Ge; Zhaoyang Zhang; Lei Yang; Xiaogang Wang; Ying Shan; Ping Luo
Nicht alle Modelle sind gleich: Vorhersage der Modellübertragbarkeit in einem selbst herausfordernden Fisher-Raum
Abstract

Dieses Papier behandelt ein wichtiges Problem der Rangfolge von vortrainierten tiefen neuronalen Netzen und der Auswahl der übertragbarsten Modelle für nachgelagerte Aufgaben. Dies ist herausfordernd, da die tatsächliche Modellrangfolge für jede Aufgabe nur durch Feinabstimmung (fine-tuning) der vortrainierten Modelle auf dem Ziel-Datensatz generiert werden kann, was eine brute-Force-Methode und rechnerisch sehr aufwändig ist. Kürzlich vorgeschlagene fortschrittliche Methoden haben mehrere leichtgewichtige Übertragbarkeitsmetriken vorgestellt, um die Ergebnisse der Feinabstimmung vorherzusagen. Diese Ansätze erfassen jedoch nur statische Repräsentationen und ignorieren die Dynamik der Feinabstimmung. In diesem Zusammenhang schlägt dieses Papier eine neue Übertragbarkeitsmetrik vor, die als \textbf{S}elbst-herausfordernde \textbf{F}ischer-\textbf{D}iskriminanz-\textbf{A}nalyse (\textbf{SFDA}) bezeichnet wird. SFDA verfügt über zahlreiche attraktive Vorteile, die bisherige Arbeiten nicht bieten. Erstens kann SFDA die statischen Merkmale in einen Fischerraum einbetten und sie für eine bessere Trennbarkeit zwischen den Klassen verfeinern. Zweitens verwendet SFDA ein selbst-herausforderndes Mechanismus, um verschiedene vortrainierte Modelle dazu zu ermutigen, sich bei schwierigen Beispielen zu unterscheiden. Drittens kann SFDA leicht mehrere vortrainierte Modelle für das Modellensemble auswählen. Ausführliche Experimente mit $33$ vortrainierten Modellen für $11$ nachgelagerte Aufgaben zeigen, dass SFDA effizient, wirksam und robust ist, wenn es um die Messung der Übertragbarkeit von vortrainierten Modellen geht. Zum Beispiel zeigt SFDA im Vergleich zur aktuellen besten Methode NLEEP einen durchschnittlichen Gewinn von $59{,}1$\% und gleichzeitig eine Beschleunigung des Rechenzeitumsatzes (wall-clock time) um das $22{,}5$-fache. Der Code wird unter \url{https://github.com/TencentARC/SFDA} verfügbar sein.

Nicht alle Modelle sind gleich: Vorhersage der Modellübertragbarkeit in einem selbst herausfordernden Fisher-Raum | Neueste Forschungsarbeiten | HyperAI