
摘要
由于人工智能驱动技术的近期进展,隐写术领域迎来了广泛关注,尤其是在多模态架构背景下,能够将一种信号嵌入到性质不同的另一类信号中。所有隐写技术的核心目标均在于实现感知透明性、鲁棒性以及大容量嵌入能力——然而这些目标往往相互冲突,传统方法难以兼顾。本文在现有“图像嵌入音频”深度隐写方法的基础上进行扩展与优化,重点提升其鲁棒性。所提出的改进措施包括:对损失函数进行重构、引入短时傅里叶变换(Short-Time Fourier Transform, STFT)以增强频域处理能力、在编码过程中引入冗余以实现错误纠正,以及在像素子卷积操作中缓冲额外信息。实验结果表明,所提方法在鲁棒性与感知透明性方面均显著优于现有方法。