HyperAIHyperAI
vor 17 Tagen

Model Ratatouille: Diverse Modelle zur Wiederverwendung für die Generalisierung außerhalb der Verteilung

Alexandre Ramé, Kartik Ahuja, Jianyu Zhang, Matthieu Cord, Léon Bottou, David Lopez-Paz
Model Ratatouille: Diverse Modelle zur Wiederverwendung für die Generalisierung außerhalb der Verteilung
Abstract

Grundmodellen definieren neu, wie KI-Systeme entwickelt werden. Praktiker folgen heute einem etablierten Verfahren zur Erstellung ihrer maschinellen Lernlösungen: Sie nehmen eine vortrainierte Grundmodell und passen die Gewichte an die Zielaufgabe an. Dadurch entstehen weltweit zahlreiche, auf unterschiedliche Aufgaben feinabgestimmte Varianten dieser Grundmodelle – doch diese Feinabstimmungen existieren isoliert voneinander und nutzen sich gegenseitig nicht aus. In unserer Sicht ist dies eine verpasste Chance, da diese spezialisierten Modelle reichhaltige und vielfältige Merkmale enthalten. In diesem Paper stellen wir daher ein neues Verfahren namens Model Ratatouille vor, das die mehrfachen Feinabstimmungen desselben Grundmodells auf diverse Hilfsaufgaben wiederverwertet. Konkret übernehmen wir die Gewichte dieser Hilfsaufgaben als Startwerte für mehrere parallele Feinabstimmungen auf die Zielaufgabe; anschließend mitteln wir alle feinabgestimmten Gewichte, um das endgültige Modell zu erhalten. Diese Wiederverwertungsstrategie zielt darauf ab, die Vielfalt der Gewichte durch Ausnutzung der Vielfalt der Hilfsaufgaben zu maximieren. Experimentell zeigt sich, dass diese Methode die bisher beste Leistung auf dem Referenzbenchmark DomainBed für die Generalisierung außerhalb der Trainingsverteilung erreicht. Zukünftig trägt diese Arbeit zum aufkommenden Paradigma des aktualisierbaren maschinellen Lernens bei, bei dem die Gemeinschaft – ähnlich wie bei der Entwicklung von Open-Source-Software – gemeinsam zuverlässig maschinelle Lernmodelle aktualisiert. Unser Code ist veröffentlicht: https://github.com/facebookresearch/ModelRatatouille.

Model Ratatouille: Diverse Modelle zur Wiederverwendung für die Generalisierung außerhalb der Verteilung | Neueste Forschungsarbeiten | HyperAI