Zu einer interpretierbaren Klassifizierung von Schlafstadien mit Hilfe von Cross-Modal-Transformern

Eine genaue Klassifizierung der Schlafstadien ist von großer Bedeutung für die Bewertung des Schlafgesundheitszustands. In den letzten Jahren wurden mehrere maschinelles Lernen basierende Algorithmen zur Klassifizierung der Schlafstadien entwickelt, und insbesondere haben tiefes Lernen basierende Algorithmen eine Leistung erzielt, die mit der menschlichen Annotation vergleichbar ist. Trotz dieser verbesserten Leistung ist ein Nachteil der meisten tiefes Lernen basierenden Algorithmen ihr Black-Box-Verhalten (black-box behavior), das ihre Verwendung in klinischen Szenarien eingeschränkt hat. Hier schlagen wir einen multimodalen Transformer vor, der eine auf dem Transformer basierende Methode zur Klassifizierung der Schlafstadien darstellt. Der vorgeschlagene multimodale Transformer besteht aus einer neuartigen multimodalen Transformer-Encoder-Architektur sowie einem mehrskaligen eindimensionalen konvolutionellen Neuronalen Netzwerk (Convolutional Neural Network) für automatisches Repräsentationslernen. Unsere Methode übertrifft die Stand-of-the-Art-Methoden und beseitigt das Black-Box-Verhalten von tiefes Lernen Modellen durch die Nutzung des Interpretationsaspekts der Aufmerksamkeitsmodule (attention modules). Darüber hinaus bietet unsere Methode erhebliche Reduktionen in der Anzahl der Parameter und in der Trainingszeit im Vergleich zu den Stand-of-the-Art-Methoden. Unser Code ist unter https://github.com/Jathurshan0330/Cross-Modal-Transformer verfügbar. Eine Demonstration unserer Arbeit kann unter https://bit.ly/Cross_modal_transformer_demo eingesehen werden.