CLASS: Steigerung der Leistungsfähigkeit und Trainingseffizienz bei der multimodalen Text-Molekül-Retrieval-Aufgabe

Die Aufgabe der cross-modalen Text-Molekül-Retrieval verbindet Molekülstrukturen mit natürlichsprachlichen Beschreibungen. Bestehende Methoden konzentrieren sich überwiegend auf die Ausrichtung zwischen Text- und Molekülmodality, vernachlässigen jedoch die adaptiv angepasste Steuerung der Lernzustände in verschiedenen Trainingsphasen sowie die Steigerung der Trainingseffizienz. Um diesen Herausforderungen zu begegnen, schlagen wir einen Curriculum-Learning-basierten cross-modalen Text-Molekül-Trainingsrahmen (CLASS) vor, der mit beliebigen Backbone-Architekturen integriert werden kann und signifikante Leistungssteigerungen ermöglicht. Konkret quantifizieren wir die Schwierigkeit von Trainingsbeispielen unter Berücksichtigung sowohl der Text- als auch der Molekülmodality und entwerfen einen Sample-Scheduler, der Trainingsbeispiele im Verlauf des Trainings schrittweise von einfach zu schwierig einführt. Dadurch wird die Anzahl der benötigten Trainingsbeispiele in den frühen Trainingsphasen erheblich reduziert und die Trainingseffizienz verbessert. Zudem führen wir eine adaptive Intensitäts-Lernstrategie ein, die die Trainingsintensität im Laufe des Trainings dynamisch erhöht und somit die Lernintensität über alle Curriculum-Stufen hinweg adaptiv steuert. Experimentelle Ergebnisse auf dem ChEBI-20-Datensatz zeigen, dass unsere vorgeschlagene Methode eine überlegene Leistung erzielt und gleichzeitig erhebliche Zeitersparnisse ermöglicht.