Kompression von 3DCNNs auf der Basis der Tensor-Train-Zerlegung

Dreidimensionale Faltungsneuronale Netze (3DCNNs) werden in vielen Aufgaben eingesetzt, wie z.B. Video- und 3D-Punktewolken-Erkennung. Aufgrund der höheren Dimension der Faltungskerne ist die Speicherkomplexität von 3DCNNs im Allgemeinen größer als die von traditionellen zweidimensionalen Faltungsneuronalen Netzen (2DCNNs). Um 3DCNNs für die Verwendung in eingeschränkten Umgebungen wie eingebetteten Geräten zu verkleinern, bietet sich die Kompression neuronaler Netze als vielversprechender Ansatz an. In dieser Arbeit verwenden wir die Tensor-Train-(TT-)Zerlegung, eine einfache und direkte Trainingskompressionsmethode vor Ort, um die 3DCNN-Modelle zu reduzieren. Durch das Vorschlagen des Tensorisierens dreidimensionaler Faltungskerne im TT-Format untersuchen wir, wie geeignete TT-Ränge ausgewählt werden können, um einen höheren Kompressionsfaktor zu erreichen. Wir haben auch über die Redundanz dreidimensionaler Faltungskerne bei der Kompression, die Kernbedeutung und zukünftigen Richtungen dieser Arbeit sowie den theoretischen Rechenaufwand im Vergleich zur praktischen Ausführungszeit der Faltung im TT-Format diskutiert. Anhand mehrerer Vergleichsexperimente auf Basis der VIVA-Challenge, UCF11 und UCF101-Datensätze kommen wir zu dem Schluss, dass TT-Zerlegung 3DCNNs um etwa das Hundertfache komprimieren kann, ohne dass es zu erheblichen Genauigkeitsverlusten kommt. Dies wird ihre Anwendbarkeit in zahlreichen realen Szenarien ermöglichen.