HyperAIHyperAI
vor 2 Monaten

Halbüberwachtes Sequenzmodellierung mit Cross-View Training

Kevin Clark; Minh-Thang Luong; Christopher D. Manning; Quoc V. Le
Halbüberwachtes Sequenzmodellierung mit Cross-View Training
Abstract

Unüberwachte Darstellungslernalgorithmen wie word2vec und ELMo verbessern die Genauigkeit vieler überwachter NLP-Modelle, hauptsächlich weil sie von großen Mengen an nicht gekennzeichnetem Text profitieren können. Allerdings lernen die überwachten Modelle während der Haupttrainingsphase nur aus aufgabenbezogenen gekennzeichneten Daten. Deshalb schlagen wir das Cross-View Training (CVT) vor, einen semi-überwachten Lernalgorithmus, der die Darstellungen eines Bi-LSTM-Satzencoders durch eine Kombination aus gekennzeichneten und nicht gekennzeichneten Daten verbessert. Bei gekennzeichneten Beispielen wird der Standard überwachte Lernprozess angewendet. Bei nicht gekennzeichneten Beispielen lehrt CVT Hilfsprädiktionsmodule, die eingeschränkte Ansichten des Eingangs (z.B., nur Teile eines Satzes) sehen, um die Vorhersagen des vollständigen Modells zu reproduzieren, das den gesamten Eingang sieht. Da die Hilfsmodule und das vollständige Modell gemeinsame Zwischendarstellungen teilen, verbessert dies letztendlich auch das vollständige Modell. Zudem zeigen wir, dass CVT besonders effektiv ist, wenn es mit dem Multi-Task Learning kombiniert wird. Wir evaluieren CVT anhand von fünf Sequenztagging-Aufgaben, maschinellen Übersetzungen und abhängigkeitsbasierten Syntaxanalysen und erzielen dabei standesübliche Ergebnisse.请注意,"standesübliche Ergebnisse" 是 "state-of-the-art results" 的一种翻译方式,但更常见的翻译可能是 "Standardschwellenwert-Ergebnisse" 或者直接使用英语术语 "state-of-the-art Ergebnisse"。根据具体上下文和偏好,可以选择最合适的表达。在这里,我选择了 "standesübliche Ergebnisse" 以保持译文的流畅性和正式性。

Halbüberwachtes Sequenzmodellierung mit Cross-View Training | Neueste Forschungsarbeiten | HyperAI