Reverse Knowledge Distillation: Training eines großen Modells mit einem kleinen Modell für die Retina-Bild-Korrelierung bei begrenzten Daten

Die Matching von Netzhautbildern spielt eine entscheidende Rolle bei der Überwachung der Krankheitsprogression und der Reaktion auf Therapien. Allerdings sind Datensätze mit übereinstimmenden Merkmalspunkten zwischen zeitlich getrennten Bildpaaren in geringer Zahl verfügbar, um transformerbasierte Modelle zu trainieren. Wir schlagen einen neuen Ansatz vor, der auf reverser Wissensdistillation basiert, um große Modelle mit begrenzten Daten zu trainieren und Overfitting zu vermeiden. Zunächst schlagen wir architekturale Modifikationen an einer CNN-basierten semi-überwachten Methode namens SuperRetina vor, die es uns ermöglichen, ihre Ergebnisse auf einem öffentlich zugänglichen Datensatz zu verbessern. Anschließend trainieren wir ein rechenaufwendigeres Modell, das auf einem Vision Transformer Encoder basiert, unter Verwendung des leichteren CNN-basierten Modells. Dies ist im Gegensatz zur üblichen Praxis im Bereich der Wissensdistillation-Forschung, wo normalerweise leichtere Modelle anhand schwererer trainiert werden. Überraschenderweise verbessert diese reversierte Wissensdistillation die Generalisierungsfähigkeit sogar noch weiter. Unsere Experimente deuten darauf hin, dass eine hochdimensionale Anpassung im Repräsentationsraum Overfitting verhindern kann, im Gegensatz zum direkten Training zur Übereinstimmung des endgültigen Outputs. Wir stellen außerdem einen öffentlichen Datensatz mit Annotationen für die Detektion und Matching von Netzhautbildmerkmalspunkten bereit, um der Forschergemeinschaft bei der Entwicklung von Algorithmen für Anwendungen mit Netzhautbildern zu helfen.