Quaternionwertige Korrelationsbasierte Lernmethoden für Few-Shot-Semantische Segmentierung

Few-shot-Segmentierung (FSS) zielt darauf ab, unerfahrene Klassen zu segmentieren, indem lediglich wenige annotierte Beispiele zur Verfügung stehen. Durch die Nutzung semantischer Merkmale, die aus Basis-Klassen mit ausreichend Trainingsbeispielen gelernt wurden, um neue Klassen darzustellen, wurde in der FSS ermutigender Fortschritt erzielt. Korrelationsbasierte Methoden verfügen aufgrund der inhärenten Natur der reellen 2D-Faltungen nicht über die Fähigkeit, die Interaktion zwischen den beiden Teilraumübereinstimmungsscores zu berücksichtigen. In diesem Artikel stellen wir einen Quaternionenansatz für die Korrelationslernung vor und schlagen ein neuartiges Quaternionwertiges Korrelationslernnetzwerk (QCLNet) vor, um die Rechenlast hochdimensionaler Korrelationstensoren zu verringern und die interne latente Wechselwirkung zwischen Abfrage- und Support-Bildern durch die Nutzung von Operationen zu erforschen, die durch die etablierte Quaternionenalgebra definiert sind. Konkret wird unser QCLNet als hyperkomplexes Netzwerk formuliert und stellt Korrelationstensoren im Quaternionenraum dar, wobei quaternionenwertige Faltungen eingesetzt werden, um die externen Beziehungen des Abfrageraums zu untersuchen, während die verborgenen Beziehungen der Support-Unterdimension im Quaternionenraum berücksichtigt werden. Umfassende Experimente auf den Datensätzen PASCAL-5i und COCO-20i zeigen, dass unsere Methode die bestehenden state-of-the-art-Methoden effektiv übertrifft. Der Quellcode ist unter https://github.com/zwzheng98/QCLNet verfügbar, und der Artikel „Quaternion-valued Correlation Learning for Few-Shot Semantic Segmentation“ wurde in den IEEE Transactions on Circuits and Systems for Video Technology, Band 33, Nr. 5, Seiten 2102–2115, Mai 2023, DOI: 10.1109/TCSVT.2022.3223150, veröffentlicht.