基于小波采样理论的新型准则函数

毛伟伟; 张治国; 金晓宇

doi:10.12178/1001-0548.2022128

摘要: 为解决在噪声环境下建模的过拟合问题，基于小波采样理论，提出一种适用于小波神经网络的新型准则函数，并设计了相应的训练算法。这种算法能够利用样本分布和误差训练输入和输出层权值，因此可以大大提高小波神经网络的学习效率。理论和试验表明，新型准则函数有力地保证了小波神经网络的泛化能力，其相应的算法具有全局收敛性，并对噪声变化具有良好的鲁棒性。

关键词:

Abstract: In order to solve overfitting of modeling in noisy circumstance, a novel cost function with corresponding training algorithm is proposed for wavelet networks based on sampling theory. Since such an algorithm can use sample distributions and errors respectively to train input and output weights, learning efficiencies of wavelet networks are improved greatly. The theories and experiments show that this novel cost function can ensure generalizations of wavelet networks. Simultaneously, the new algorithm can converge globally and is robust to noise varying.

Key words:

全文HTML

复杂环境下数据采集条件恶劣，训练样本往往带有大量噪声，且分布密度低。这导致神经网络建模极易发生过拟合。通常认为，复杂模型和样本噪声是导致神经网络过拟合的主要原因，因此在经典算法中，限制模型复杂度及滤除噪声，是防止过拟合的主要手段。

从限制模型复杂度的观点出发，及早停止法是一种常用的防止过拟合方法。它常和交叉验证法结合，广泛应用于河流和大气等复杂系统的建模^[1-3]。然而该方法训练效率较低，且很难适用于在线建模。模型选择法是另一种基于限制神经网络复杂程度来克服过拟合的有效方法。通过设定模型选择标准，如AIC（Akaike Information Criterion）^[4-5]和BIC（Bayesian Information Criteria）^[6-7]标准，这类方法可以有效地抑制训练误差的减小程度，进而保证神经网络的泛化能力。但研究表明，只有当训练样本密度足够高时，选择法才能同时保证模型的泛化能力和精度。这成为模型选择法在很多实际应用中效果不佳的主要原因。

从噪声引起过拟合的观点出发，去除或限制样本噪声成为防止过拟合的另一种重要手段，如主成分分析（Principle Component Analysis）^[8-9]、再生核算子^[10-11]等。然而这类方法在去除噪声时，常容易滤除信号自身的细节，而导致模型精度下降。

正则化技术是一种通过保证神经网络输出光滑性，防止过拟合的方法。在该项技术中，准则函数由正则项和误差项组成。由于正则项的存在，神经网络训练可以缓和插值误差的减小程度，提高神经网络的泛化能力^[12-13]。正则化技术便于操作，样本数据利用效率高、防止过拟合效果显著，因此得到广泛的应用^[14]。但正则项的选取依赖于噪声特性，而该特性往往会随着时间发生变化，这大大降低了正则化技术对噪声的鲁棒性。

从上面的分析可知，尽管经典防止过拟合技术可以提高神经网络建模的泛化能力，但常存在计算复杂、样本密度要求高、数据利用效率低、对噪声变化缺乏鲁棒性等问题，难以适用于复杂系统建模。为此本文将小波神经网络作为基础，引入一种新的准则函数，并提出一种输入和输出层权值相分离的训练算法。理论和实验表明该算法具有良好的泛化能力和全局收敛性。

6. 结束语

应用插值基和正交基之间的映射关系，本文构建了新型准则函数。同时利用该准则函数，证明了当输入层权值满足条件时，总可以获得反馈矩阵，使得训练迭代具有全局收敛性，进而提出了相应的训练算法，并将该算法推广至多维的情况。此外，本文还证明了该算法能够使准则函数的减小等价于逼近误差的减小，因而可以有效避免过拟合。最后仿真结果验证了本文算法的有效性。

参考文献 (17)

姓名
邮箱
手机号码
标题
留言内容
验证码

噪声	最大值	平均值
小波网络(正态平稳噪声)	0.0175	0.00314
正则化网络(正态平稳噪声)	0.03950	0.00692
小波网络(均匀平稳噪声)	0.02622	0.00509
正则化网络(均匀平稳噪声)	0.04332	0.01176
小波网络(正态非平稳噪声)	0.03632	0.00539
正则化网络(正态非平稳噪声)	0.08858	0.01240
小波网络(均匀非平稳噪声)	0.02809	0.00437
正则化网络(均匀非平稳噪声)	0.04720	0.01020

网络	区间A	区间B	区间C	区间D
小波网络(正态)	0.00281	0.00514	0.00602	0.00688
正则化网络(正态)	0.00618	0.01168	0.01407	0.01669
小波网络(均匀)	0.00237	0.00415	0.00520	0.00607
正则化网络(均匀)	0.00537	0.00949	0.01211	0.01410

[1]	TAWFIK A M. River flood routing using artificial neural networks[J]. Ain Shams Engineering Journal, 2023, 14(3): 1-10.
[2]	ANNA R, ALEXANDER S, ANDREY S, et al. Three-day forecasting of greenhouse gas CH4 in the atmosphere of the Arctic Belyy Island using discrete wavelet transform and artificial neural networks[J]. Neural Computing and Applications, 2021, 33(16): 0311-10322.
[3]	RANA M A, ANDREA P, SALIM H. Comparison of different methodologies for rainfall-runoff modeling: Machine learning vs conceptual approach[J]. Natural Hazards, 2021, 105(3): ‏2987-3011.
[4]	CAVANAUGH J E, NEATH A A. The Akaike information criterion: background, derivation, properties, application, interpretation, and refinements[J]. Wiley Interdisciplinary Reviews:Computational Statistics, 2019, 11(3): E1460. doi: 10.1002/wics.1460
[5]	ASADULLAH K, SARWAT A I. Unified univariate-neural network models for lithium-ion battery state-of-charge forecasting using minimized Akaike Information Criterion algorithm[J]. IEEE Access, 2021, 9: 39154-39170. doi: 10.1109/ACCESS.2021.3061478
[6]	LIU J Q. Sensor fault analysis of aero-engine using ensemble SCNN and Bayesian interval estimation[J]. Engineering Applications of Artificial Intelligence, 2023, 125: 1-14.
[7]	QIAN G Q, WU Y H, XU M. Multiple change-points detection by empirical Bayesian information criteria and gibbs sampling induced stochastic search[J]. Applied Mathematical Modelling, 2019, 72: 202-216. doi: 10.1016/j.apm.2019.03.012
[8]	GAO Y G, MA C L, AN S. Compound fault diagnosis for cooling dehumidifier based on RBF neural network improved by kernel principle component analysis and adaptive genetic algorithm[J]. Soft Computing, 2023, 27(3): 1599-1613. doi: 10.1007/s00500-022-07509-7
[9]	SANDHYA S, HEMANT P. Hyperspectral image classification using principle component analysis and deep convolutional neural network[J]. Journal of Ambient Intelligence and Humanized Computing, 2022,
[10]	FRANCESCA B, ERNESTO De V, LORENZO R, et al. Understanding neural networks with reproducing kernel Banach spaces[J]. Applied and Computational Harmonic Analysis, 2023, 62: 194-236. doi: 10.1016/j.acha.2022.08.006
[11]	BAEK J H, CHEN J S, KRISTEN S. A neural network-enhanced reproducing kernel particle method for modeling strain localization[J]. International Journal for Numerical Methods in Engineering, 2022, 123(18): 4422-4454. doi: 10.1002/nme.7040
[12]	TOMASO P, FEDERICO G. Networks for approximation and learning[J]. Proceedings of the IEEE, 1990, 78(9): 1481-1497. doi: 10.1109/5.58326
[13]	LI G, GU Y T, DING J. ${L^1}$ regularization in two-layer neural networks[J]. IEEE Signal Processing Letters, 2022, 29: 135-139. doi: 10.1109/LSP.2021.3129698
[14]	GUI S, CHEN Z D, LU B Z. Molecular sparse representation by a 3D ellipsoid radial basis function neural network via ${L^1}$ regularization[J]. Journal of Chemical Information and Modeling, 2020, 60(12): 6054-6064. doi: 10.1021/acs.jcim.0c00585
[15]	JUN Z, WALTER G G, MIAO Y. Wavelet neural networks for function learning[J]. IEEE Transactions on Signal Processing, 1995, 43(6): 1485-1496. doi: 10.1109/78.388860
[16]	MALLAT S. A wavelet tour of signal processing[M]. 2ed. Beijing: China Machine Press, 2003.
[17]	ZHANG Z G, LI Y. Recovery of the optimal approximation from samples in wavelet subspace[J]. Digital Signal Processing, 2012, 22(5): 795-807. doi: 10.1016/j.dsp.2012.04.003

[1]	杨旺功, 淮永建, 张福泉. 基于Gabor及深度神经网络的葡萄种子分类 . 电子科技大学学报, 2020, 49(1): 131-138. doi: 10.12178/1001-0548.2019164
[2]	张治国, 胡学海, 周依. 基于尺度函数的插值小波构建方法 . 电子科技大学学报, 2017, 46(4): 481-487. doi: 10.3969/j.issn.1001-0548.2017.04.001
[3]	谭骏, 陈兴蜀, 杜敏, 朱锴. 基于自适应BP神经网络的网络流量识别算法 . 电子科技大学学报, 2012, 41(4): 580-585. doi: 10.3969/j.issn.1001-0548.2012.04.020
[4]	田毅贞, 张齐军. 知识型神经网络的射频/微波器件建模方法 . 电子科技大学学报, 2011, 40(6): 815-824. doi: 10.3969/j.issn.1001-0548.2011.06.002
[5]	钱艺, 王沁, 吴巍, 刘金龙. 神经网络并行MIMD处理器的研究及实现 . 电子科技大学学报, 2008, 37(6): 904-907.
[6]	陈文宇, 刘井波, 孙世新. 层次分析的神经网络集成方法 . 电子科技大学学报, 2008, 37(3): 432-435.
[7]	袁继敏, 李小玲, 古天祥. 基于时空神经网络增强数字示波器功能的研究 . 电子科技大学学报, 2007, 36(5): 938-941.
[8]	刘贵松, 王晓彬. 采用自适应GHA神经网络的分类器设计 . 电子科技大学学报, 2007, 36(6): 1241-1244.
[9]	王运, 黄大贵, 杨天文. 开放式数控切割机神经网络误差补偿研究 . 电子科技大学学报, 2007, 36(2): 305-308.
[10]	傅彦, 周俊临, 吴跃. 快速神经网络无损压缩方法研究 . 电子科技大学学报, 2007, 36(6): 1245-1248.
[11]	陈科, 许家珆, 程永新. 基于免疫算法和神经网络的新型抗体网络 . 电子科技大学学报, 2006, 35(5): 804-806,840.
[12]	朱培勇, 孙世新. 具有时滞的Hopfield神经网络的周期解 . 电子科技大学学报, 2005, 34(5): 680-683.
[13]	文武, 杨汉生, 徐军, 钟守铭. 随机型细胞神经网络的稳定性 . 电子科技大学学报, 2005, 34(5): 700-702,716.
[14]	张春凤, 徐军, 钟守铭. 一类神经网络系统的渐近行为 . 电子科技大学学报, 2004, 33(1): 91-93.
[15]	徐军, 钟守铭, 张春凤. 分布时滞Hopfield神经网络稳定性 . 电子科技大学学报, 2004, 33(2): 200-203.
[16]	王定成, 王毅, 钟守铭. 一类神经网络算法的渐近行为 . 电子科技大学学报, 2003, 32(2): 221-224.
[17]	梁金明, 章毅. 基于回路神经网络的特征子空间估值算法 . 电子科技大学学报, 2002, 31(6): 612-618.
[18]	梁金明, 章毅. 回复式离散神经网络的特征子空间估值 . 电子科技大学学报, 2002, 31(4): 349-355.
[19]	陈中柘. 神经网络定性分析 . 电子科技大学学报, 2002, 31(3): 250-254.
[20]	刘容. 一种基于广义算子理论上的神经反向传播 . 电子科技大学学报, 1999, 28(5): 540-542.

留言板