Transduktive Entkoppelte Variationsinferenz für Few-Shot-Klassifikation

Die Fähigkeit, aus nur wenigen Beispielen zu lernen, ist ein Kennzeichen menschlicher Intelligenz. Few-Shot-Lernen ist ein Ansatz, dieses Vermögen auf Maschinen zu übertragen. Inspiriert durch das Potenzial und die Leistungsfähigkeit der wahrscheinlichkeitstheoretischen Tiefenlernenverfahren, schlagen wir ein neues variationsinferenzbasiertes Netzwerk für Few-Shot-Klassifikation vor (als TRIDENT bezeichnet), das die Darstellung eines Bildes in semantische und labelbasierte latente Variablen trennt und diese gleichzeitig in einem verflochtenen Prozess inferiert. Um Aufgabenbewusstsein zu erzeugen, nutzen wir im Rahmen der Inferenzmechanik von TRIDENT Informationen sowohl aus den Abfrage- als auch aus den Support-Bildern einer Few-Shot-Aufgabe mithilfe eines neuartigen eingebauten aufmerksamkeitsbasierten transduktiven Merkmalsextraktionsmoduls (das wir AttFEX nennen).Unsere umfangreichen experimentellen Ergebnisse bestätigen die Effektivität von TRIDENT und zeigen, dass es mit einfachsten Backbones neue Standarts in den am häufigsten verwendeten Datensätzen miniImageNet und tieredImageNet setzt (mit Verbesserungen von bis zu 4 % und 5 % respektive) sowie in dem kürzlich erschienenen anspruchsvollen Querdomänen-Szenario miniImageNet → CUB einen signifikanten Vorsprung (mit Verbesserungen von bis zu 20 %) gegenüber den besten existierenden Querdomänen-Baselines bietet. Der Code und die Experimente können in unserem GitHub-Repository gefunden werden: https://github.com/anujinho/trident