17 天前

安德拉·班德斯纳奇:训练神经网络以预测平行现实

Venkata Satya Sai Ajay Daliparthi
安德拉·班德斯纳奇:训练神经网络以预测平行现实
摘要

受多世界诠释(Many-Worlds Interpretation, MWI)的启发,本文提出了一种新型神经网络架构,该架构在每一层将相同的输入信号分裂为并行分支,采用一种称为ANDHRA(Hyper Rectified Activation)的激活函数。这些分支层彼此不合并,从而形成独立的网络路径,最终生成多个独立的输出头。对于在三个层级上分支因子均为2的网络,总输出头数量为 $2^3 = 8$。各输出头通过联合其对应的损失值进行协同训练。然而,由于引入了额外的分支结构,该架构在训练过程中需要更多的参数和内存开销。在推理阶段,基于CIFAR-10和CIFAR-100的实验结果表明,存在某个独立输出头的性能优于基准模型,在参数量和计算成本完全相同的情况下,实现了具有统计显著性的准确率提升。