Sparse und kontinuierliche Aufmerksamkeitsmechanismen

Exponentialfamilien werden in der maschinellen Lernung weit verbreitet eingesetzt; sie umfassen viele Verteilungen sowohl im stetigen als auch im diskreten Bereich (z. B. Gauß-Verteilung, Dirichlet-Verteilung, Poisson-Verteilung sowie kategoriale Verteilungen mittels der Softmax-Transformation). Jede Verteilung innerhalb dieser Familien weist einen festen Träger (support) auf. Im Gegensatz dazu existieren für endliche Domänen in jüngster Zeit Arbeiten zu sparsen Alternativen der Softmax-Funktion (z. B. sparsemax und alpha-entmax), die einen variablen Träger besitzen und in der Lage sind, der irrelevanten Kategorien eine Null-Wahrscheinlichkeit zuzuweisen. Diese Arbeit erweitert diese Forschung in zwei Richtungen: Erstens erweitern wir alpha-entmax auf stetige Domänen und decken dabei eine Verbindung zu Tsallis-Statistik sowie deformierten Exponentialfamilien auf. Zweitens führen wir Aufmerksamkeitsmechanismen für stetige Domänen ein und leiten effiziente Algorithmen zur Rückpropagation von Gradienten für alpha in {1,2} ab. Experimente zur textbasierten Klassifikation, maschinellen Übersetzung und visuellen Fragebeantwortung verdeutlichen die Anwendung kontinuierlicher Aufmerksamkeit in 1D und 2D und zeigen, dass sie die Fokussierung auf Zeitintervalle und kompakte Regionen ermöglicht.