HyperAIHyperAI
vor 2 Monaten

Vereinigung molekularer und textbasierter Repräsentationen durch mehrfachaufgabenbasiertes Sprachmodellierung

Dimitrios Christofidellis; Giorgio Giannone; Jannis Born; Ole Winther; Teodoro Laino; Matteo Manica
Vereinigung molekularer und textbasierter Repräsentationen durch mehrfachaufgabenbasiertes Sprachmodellierung
Abstract

Die jüngsten Fortschritte in neuronalen Sprachmodellen wurden erfolgreich auch auf das Gebiet der Chemie angewendet und bieten generative Lösungen für klassische Probleme im Bereich der Moleküldesign und Syntheseplanung. Diese neuen Methoden haben das Potenzial, eine neue Ära datengetriebener Automatisierung in der wissenschaftlichen Entdeckung einzuleiten. Allerdings sind spezialisierte Modelle für jede Aufgabe weiterhin erforderlich, was die Notwendigkeit von aufgabenbezogenem Feinabstimmung (fine-tuning) nach sich zieht und die Beziehungen zwischen den Aufgaben vernachlässigt. Das Hauptproblem in diesem Feld ist das Fehlen einer einheitlichen Darstellung zwischen natürlicher Sprache und chemischen Darstellungen, was die mensch-maschinelle Interaktion erschwert und einschränkt. Hier schlagen wir das erste mehrdomänen- und mehraufgabenfähige Sprachmodell vor, das eine breite Palette von Aufgaben sowohl in den chemischen als auch in den natürlichsprachlichen Domänen lösen kann. Unser Modell kann chemische und natürliche Sprache gleichzeitig verarbeiten, ohne teure Vortrainings (pre-training) auf einzelnen Domänen oder aufgabenspezifische Modelle zu benötigen. Interessanterweise führt das Teilen von Gewichten über verschiedene Domänen hinweg bei Vergleichen mit den besten bisher bekannten Baselines (state-of-the-art baselines) bei ein- und mehrdomänenbezogenen Aufgaben zu erstaunlichen Verbesserungen unseres Modells. Insbesondere ermöglicht das Austauschen von Informationen über verschiedene Domänen und Aufgaben hinweg große Verbesserungen bei mehrdomänenbezogenen Aufgaben, wobei die Größenordnung dieser Verbesserungen mit der Skalierung zunimmt, wie durch mehr als ein Dutzend relevanter Metriken gemessen wurde. Unsere Arbeit deutet darauf hin, dass solche Modelle die Entdeckung in den Naturwissenschaften durch die Überwindung aufgabenspezifischer Feinabstimmung und die Verbesserung der mensch-modellbasierten Interaktionen robust und effizient beschleunigen können.