Ein erweitertes Inception-Netzwerk zur Vorhersage visueller Aufmerksamkeit

Kürzlich haben die Fortschritte in der Forschung zur Vorhersage visueller Aufmerksamkeit mit der Einführung tiefer konvolutiver Neuronaler Netze (DCNN) beeindruckend sein können. Eine mögliche Richtung für den nächsten Fortschritt besteht darin, die multi-skalierten Aufmerksamkeitsfaktoren mit einem rechnerisch effizienten Modul in DCNN-Architekturen vollständig zu charakterisieren. In dieser Arbeit schlagen wir ein end-to-end erweitertes Inception-Netzwerk (DINet) für die Vorhersage visueller Aufmerksamkeit vor. Es fängt multi-skalierte kontextuelle Merkmale effektiv mit sehr wenigen zusätzlichen Parametern ein. Anstelle paralleler Standard-Konvolutionen mit unterschiedlichen Kerngrößen, wie sie im bestehenden Inception-Modul verwendet werden, nutzt unser vorgeschlagenes erweitertes Inception-Modul (DIM) parallele erweiterte Konvolutionen mit verschiedenen Erweiterungsrate(n), die die Rechenlast erheblich reduzieren und gleichzeitig die Vielfalt der Rezeptorfelder in den Merkmalskarten erhöhen können. Darüber hinaus wird die Leistung unseres Aufmerksamkeitsmodells durch die Verwendung einer Reihe von linearknormalisierten Wahrscheinlichkeitsverteilungsdistanzmetriken als Verlustfunktionen weiter verbessert. So können wir die Vorhersage von Aufmerksamkeit als eine Aufgabe zur Vorhersage von Wahrscheinlichkeitsverteilungen für globale Aufmerksamkeitsinferenz formulieren, anstatt das übliche Problem der pixelweise Regression. Experimentelle Ergebnisse auf mehreren anspruchsvollen Benchmark-Datensätzen zeigen, dass unser DINet mit den vorgeschlagenen Verlustfunktionen erstklassige Leistungen bei kürzerer Inferenzzeit erzielen kann.请注意,这里有一些小的调整以确保句子结构更加符合德语的习惯,同时保持了原文的专业性和准确性。例如,“beeindruckend sein können”比“beeindruckend sind”更符合德语的表达习惯;“Rechenlast erheblich reduzieren”比直译的“significantly reduce the computation load”更自然。此外,“Verlustfunktionen”(损失函数)和“Wahrscheinlichkeitsverteilungsdistanzmetriken”(概率分布距离度量)等术语也采用了德语中常见的专业表述。