CT-Net: Channel Tensorization Network für die Video-Klassifikation

Die 3D-Faltung ist für die Video-Klassifikation leistungsfähig, jedoch oft rechenintensiv. In jüngsten Studien liegt der Fokus hauptsächlich auf der Zerlegung der Faltung entlang räumlicher, zeitlicher und/oder kanalbezogener Dimensionen. Leider gelingt den meisten Ansätzen keine befriedigende Balance zwischen Faltungseffizienz und ausreichender Merkmalsinteraktion. Aus diesem Grund stellen wir ein kompaktes und neuartiges Netzwerk namens Channel Tensorization Network (CT-Net) vor, bei dem die Kanaldimension der Eingabemerkmale als Produkt aus K Teil-Dimensionen modelliert wird. Einerseits führt diese Herangehensweise natürlicherweise eine mehrdimensionale Faktorisierung der Faltung herbei, was eine geringe Rechenlast ermöglicht. Andererseits kann die Merkmalsinteraktion zwischen verschiedenen Kanälen effektiv verstärkt werden, und der räumlich-zeitliche Rezeptionsfeldbereich dieser Interaktion schrittweise vergrößert werden, was die Klassifizierungsgenauigkeit steigert. Zudem integrieren wir in unsere CT-Module eine Tensor-Excitation (TE)-Mechanismus. Dieser lernt, räumliche, zeitliche und kanalbezogene Aufmerksamkeit hochdimensional zu nutzen, um die kooperative Wirkung aller Merkmalsdimensionen innerhalb des CT-Moduls zu verbessern. Schließlich adaptieren wir flexibel ResNet als Grundarchitektur für unser CT-Net. Umfassende Experimente werden auf mehreren anspruchsvollen Video-Benchmarks durchgeführt, darunter Kinetics-400, Something-Something V1 und V2. Unser CT-Net erreicht eine bessere Leistung als mehrere aktuelle SOTA-Methoden hinsichtlich Genauigkeit und/oder Effizienz. Der Quellcode und die Modelle werden unter https://github.com/Andy1621/CT-Net verfügbar gemacht.