Complex Transformer: Ein Rahmenwerk zur Modellierung komplexwertiger Sequenzen

Während das tiefe Lernen in den letzten Jahren in einer Vielzahl von Bereichen erhebliches Interesse geweckt hat, werden komplexe Zahlen in den meisten großen Deep-Learning-Modellen kaum genutzt. Doch Sprach-, Signal- und Audiodaten sind nach der Fourier-Transformation naturgemäß komplexwertig, und Untersuchungen deuten darauf hin, dass komplexe Netze ein potenziell reichhaltigeres Repräsentationsvermögen besitzen. In diesem Artikel stellen wir einen Complex Transformer vor, der das Transformer-Modell als Grundbaustein für die Sequenzmodellierung nutzt; zudem entwickeln wir Aufmerksamkeitsmechanismen sowie Encoder-Decoder-Netzwerke, die für komplexe Eingaben geeignet sind. Das vorgeschlagene Modell erreicht eine state-of-the-art-Leistung auf dem MusicNet-Datensatz sowie auf einem Datensatz komplexer In-Phase-Quadratur-(IQ)-Signale.