HyperAIHyperAI
vor 17 Tagen

ANDHRA Bandersnatch: Training Neural Networks to Predict Parallel Realities

Venkata Satya Sai Ajay Daliparthi
ANDHRA Bandersnatch: Training Neural Networks to Predict Parallel Realities
Abstract

Angeregt durch die Viele-Welten-Interpretation (Many-Worlds-Interpretation, MWI) wird in dieser Arbeit eine neuartige neuronale Netzarchitektur vorgestellt, die das gleiche Eingabesignal in jeder Schicht in parallele Zweige aufteilt und eine Hyper-Rectified-Aktivierung, bezeichnet als ANDHRA, verwendet. Die verzweigten Schichten verschmelzen nicht, sondern bilden getrennte Netzwerkpfade, was zu mehreren Netzwerk-Köpfen für die Ausgabevorhersage führt. Bei einem Verzweigungsfaktor von 2 an drei Ebenen ergibt sich insgesamt eine Anzahl von 2³ = 8 Köpfen. Die einzelnen Köpfe werden gemeinsam durch Kombination ihrer jeweiligen Verlustwerte trainiert. Die vorgeschlagene Architektur erfordert jedoch während des Trainings zusätzliche Parameter und Speicherplatz aufgrund der zusätzlichen Zweige. Während der Inferenz zeigen die experimentellen Ergebnisse auf CIFAR-10/100, dass ein einzelner Kopf die Baseline-Genauigkeit übertrifft und dabei eine statistisch signifikante Verbesserung bei gleichbleibender Anzahl an Parametern und berechnungsmäßiger Kosten erzielt.