神经网络拟合能力2
2017-02-23
神经网络相关拟合能力的证明历史。
原创文章,转载请注明:转自Luozm's Blog接上文,神经网络系列第二篇。
2. 发展
1957年-1987年间,人们认为KST定理仅仅是有趣的数学定理,但却没有实际用处。
1987年,在KST发表将近30年之后,Hecht-Nielsen1$^,$2注意到了这个定理在神经网络上有趣的应用:任意多元连续函数$f:[0,1]^n\to\mathbb{R}$可以被一个有连续激活函数$t:[0,1]\to\mathbb{R}$的3层前馈神经网络表示。虽然Hecht-Nielsen定理对前馈神经网络的性能进行了一种非常有用的刻画,但这种描述似乎对神经网络计算的实践没有太大的影响。这一定程度上是由于Hecht-Nielsen定理被认为是非构造性的(non-constructive,即只证明了存在性而无法找到对应的模型,也无法给出计算精度的估计),这也是后续的研究3$^,$4$^,$5集中在Kolmogorov叠加定理的近似版本在神经网络逼近上的原因之一。从此以后,关于函数逼近的精度与单变量连续函数的形式、隐藏层数和每层神经元数的关系,以及网络的学习算法、收敛性和推广性问题的研究,一直是神经网络理论研究的重要课题。
Cybenko6在1989年首次严格给出并论证了用于以Sigmoid函数作为激活函数的神经网络的函数逼近的存在定理:只要有一个隐藏层,前馈型神经网络就能一致逼近至任意连续函数。即给定 $\delta>0$和连续函数$f:\Omega\to\mathbb{R}^m$,$\Omega\subset\mathbb{R}^n$是有界闭子集,则存在一权重矩阵$W^\ast\in\mathbb{R}^s$,$s$是权重系数的个数,使神经网络的输出$f^{NN}(X,W^\ast)$满足:
Hornik7在1991年指出并不是由于特定激活函数的选择,而是多层前馈神经网络的结构本身给神经网络提供了泛逼近性(Universal Approximators),即泛逼近定理(Universal Approximation Theorem):令$\varphi(\cdot)$为一任意激活函数,$X\subseteq\mathbb{R}^m$且为紧集。$X$上的连续函数空间记为$C(X)$。则$\forall f∈C(X)$,$\forall\varepsilon>0:\exists n\in\mathbb{N}$, $a_{ij}, b_i, w_i\in\mathbb{R}, i\in{1\dots n}, j\in{1\dots m}$,有:
其中对于函数$f$的一个逼近为:
在记号$A_nf$中,$n$表示隐藏神经元的数目。上述定理证明了存在一个神经网络可以以给定的精度逼近任意给定的连续函数。但是这个证明本身并不是算法(即构造性证明):它在证明中使用了Stone-Weierstrass定理8。因此在存在性证明之外,还需要构造性证明来把这个结果应用到实际的计算中。
参考文献
-
Hecht-Nielsen, “Kolmogorov’s Mapping Neural Network Existence Theorem,” In Proceedings of International Conference on Neural Networks, pp. 11-14, 1987. ↩
-
Hecht-Nielsen, Neurocomputing, Addison-Wesley, 1990. ↩
-
K.Hornil, “Multilayer Feedforward Networks Are Universal Approximators,” Neural Networks, pp. 359-366, 1989. ↩
-
V.Kurkova, “13th Hilbert’s Problem and Neural Networks,” Theoretical Aspects of Neurocomputing, pp. 213-216, 1991. ↩
-
V.Kurkova, “Kolmogorov’s Theorem and Multilayer Neural Networks,” Neural Networks, pp. 501-506, 1992. ↩
-
G.Cybenko, “Approximation by Superpositions of a Sigmoidal Function,” Mathematics of Control, Signals, and Systems, pp. 303-314, 1989. ↩
-
K.Hornil, “Approximation Capabilities of Multilayer Feedforward Networks,” Neural Networks, pp. 251-257, 1991. ↩
-
Stone, “The Generalized Weierstrass Approximation Theorem,” Mathematics Magazine, pp. 167-184, 1948. ↩