vor 2 Monaten

Vor-Training tiefgangiger bidirektionaler Proteinsequenzrepräsentationen mit strukturellen Informationen

Seonwoo Min; Seunghyun Park; Siwon Kim; Hyun-Soo Choi; Byunghan Lee; Sungroh Yoon

Abstract

Die exponentiell wachsende Lücke zwischen der Anzahl nicht annotierter und annotierter Proteinsequenzen wurde in mehreren Studien durch die Anwendung von semi-überwachtem Lernen für die Modellierung von Proteinsequenzen überbrückt. In diesen Studien wurden Modelle mit einer erheblichen Menge an nicht annotierten Daten vortrainiert, und die dargestellten Merkmale wurden auf verschiedene Downstream-Aufgaben übertragen. Die meisten Vortrainingsmethoden basieren ausschließlich auf Sprachmodellen und zeigen oft begrenzte Leistungsfähigkeit. In dieser Arbeit stellen wir ein neues Vortrainingsverfahren vor, das PLUS (Protein sequence representations Learned Using Structural information) genannt wird. PLUS umfasst maske-sprachliches Modellieren und eine ergänzende proteinspezifische Vortrainingsaufgabe, nämlich die Vorhersage von Proteinen aus der gleichen Familie. PLUS kann verwendet werden, um verschiedene Modellarchitekturen vortrainieren zu lassen. In dieser Arbeit verwenden wir PLUS, um ein bidirektionales rekurrentes Neuronales Netzwerk vortrainieren zu lassen, und bezeichnen das resultierende Modell als PLUS-RNN. Unsere Experimentsergebnisse zeigen, dass PLUS-RNN in sechs von sieben weit verbreiteten Proteinbiologieaufgaben anderen vergleichbar großen Modellen, die ausschließlich mit Sprachmodellen vortrainiert wurden, überlegen ist. Darüber hinaus präsentieren wir Ergebnisse unserer qualitativen Interpretationsanalysen, um die Stärken von PLUS-RNN zu veranschaulichen. PLUS bietet einen neuen Ansatz zur Nutzung evolutionärer Beziehungen unter nicht annotierten Proteinen und ist vielseitig anwendbar in verschiedenen Proteinbiologieaufgaben. Wir erwarten, dass die Lücke zwischen der Anzahl nicht annotierter und annotierter Proteine weiterhin exponentiell wachsen wird, und dass das vorgeschlagene Vortrainingsverfahren eine größere Rolle spielen wird.