HyperAIHyperAI
vor 17 Tagen

Sparse und kontinuierliche Aufmerksamkeitsmechanismen

André F. T. Martins, António Farinhas, Marcos Treviso, Vlad Niculae, Pedro M. Q. Aguiar, Mário A. T. Figueiredo
Sparse und kontinuierliche Aufmerksamkeitsmechanismen
Abstract

Exponentialfamilien werden in der maschinellen Lernung weit verbreitet eingesetzt; sie umfassen viele Verteilungen sowohl im stetigen als auch im diskreten Bereich (z. B. Gauß-Verteilung, Dirichlet-Verteilung, Poisson-Verteilung sowie kategoriale Verteilungen mittels der Softmax-Transformation). Jede Verteilung innerhalb dieser Familien weist einen festen Träger (support) auf. Im Gegensatz dazu existieren für endliche Domänen in jüngster Zeit Arbeiten zu sparsen Alternativen der Softmax-Funktion (z. B. sparsemax und alpha-entmax), die einen variablen Träger besitzen und in der Lage sind, der irrelevanten Kategorien eine Null-Wahrscheinlichkeit zuzuweisen. Diese Arbeit erweitert diese Forschung in zwei Richtungen: Erstens erweitern wir alpha-entmax auf stetige Domänen und decken dabei eine Verbindung zu Tsallis-Statistik sowie deformierten Exponentialfamilien auf. Zweitens führen wir Aufmerksamkeitsmechanismen für stetige Domänen ein und leiten effiziente Algorithmen zur Rückpropagation von Gradienten für alpha in {1,2} ab. Experimente zur textbasierten Klassifikation, maschinellen Übersetzung und visuellen Fragebeantwortung verdeutlichen die Anwendung kontinuierlicher Aufmerksamkeit in 1D und 2D und zeigen, dass sie die Fokussierung auf Zeitintervalle und kompakte Regionen ermöglicht.