Coarse-to-Fine Sparse Transformer für die Hyperspektralbildrekonstruktion

Viele Algorithmen wurden entwickelt, um das inverse Problem der kodierten Apertur-Snapshot-Spektralabbildung (CASSI) zu lösen, d. h. die Rekonstruktion dreidimensionaler hyperspektraler Bilder (HSI) aus einer zweidimensionalen komprimierten Messung. In den letzten Jahren haben lernbasierte Methoden eine vielversprechende Leistung gezeigt und dominieren die aktuelle Forschungstendenz. Allerdings weisen bestehende CNN-basierte Ansätze Einschränkungen hinsichtlich der Erfassung von langreichweitigen Abhängigkeiten und nicht-lokaler Selbstähnlichkeit auf. Frühere Transformer-basierte Methoden samplen Token dicht, wobei einige von ihnen informativ sind, und berechnen die Multi-Head-Self-Attention (MSA) zwischen Token, die inhaltlich nicht verwandt sind. Dies entspricht nicht der räumlich spärlichen Natur von HSI-Signalen und begrenzt die Skalierbarkeit des Modells. In diesem Artikel stellen wir eine neuartige Transformer-basierte Methode, den coarse-to-fine sparse Transformer (CST), vor, die erstmals die Sparsamkeit von HSI in das tiefe Lernen für die HSI-Rekonstruktion integriert. Insbesondere verwendet CST unseren vorgeschlagenen spektrumssensiblen Screening-Mechanismus (SASM) zur groben Patch-Auswahl. Die ausgewählten Patches werden dann in unsere maßgeschneiderte Spektrum-Aggregation-Hashing-Multi-Head-Self-Attention (SAH-MSA) eingespeist, um feine Pixel-Clustering und die Erfassung von Selbstähnlichkeit durchzuführen. Umfassende Experimente zeigen, dass unser CST die derzeit besten Methoden erheblich übertrifft, während gleichzeitig geringere rechnerische Kosten entstehen. Der Quellcode und die Modelle werden unter https://github.com/caiyuanhao1998/MST veröffentlicht.