可以说,深度神经网络的训练过程,就类似于随机初始化了一个函数,给你一个x,算出来y`。
通过反复告诉它你算的y`跟实际上的y差了多少,从而让它能够尽量接近那个未知的函数。
所以理论上,只要数据样本足够,就总是能够获得最后想要的结果。
当然了,这是个非常简单情况的例子,实际上在拟合的方程,是人类目前难以实际分析和表达的复杂结构。
不过有一点是肯定的,那就是孟繁岐的残差思想,是通过提高了求解的精度来获得的巨额提升。
这是数值分析当中的概念了,如果把整个网络理解为一种非线性常微分方程,欧拉前向就是一种简单的单步显示迭代办法。
说人话就是,通过近似的迭代模拟,省略了复杂的求解过程。
让计算机直接算百层网络的情况,它算不明白,所以用反复的简单操作来代替。
简单的格式计算求解的准确度当然会差一些,复杂的格式,计算求解精确度会高很多,势必会使得模型的性能更好。
这是个基于理论得出的推断。
因此西尼那次国际计算机视觉大会之后,所有人都认为,孟繁岐不仅做出了突破性的成果,并且还给出了一个可以指引网络变得更好的理论方向。
真是活菩萨啊!
乌泱泱一大批人前赴后继,义无反顾地往这个理论大坑里跳。
然而事情怎么可能会那么简单呢?复杂的格式需要成倍的计算量,这在深度神经网络这个实际上是离散表达的格式中,并不容易转化。
无数的研究者跳进去之后,才发现都说挖坑挖坑,原来这还真是个大坑,费了半天劲勉强做出来的结果,根本和孟繁岐的残差网络性能差不多,有时候甚至更差!
一时间哀嚎遍野。
“你们只管往理论的大坑里面跳,我可不管埋啊!”孟繁岐一边幸灾乐祸一边想着。
他当时在会上发布残差网络的同时着重提了这个理论解释,确实也有三分等着看人跳进坑的恶趣味在里面。
理论特别扎实明白的做法经常不起作用,而像自己的重参数化这样反直觉的办法反而效果绝佳,人工智能这个坑爹领域的事情,谁又能说得清呢?
理论方面的事情,2023年了都还差得远呢,现在哪里搞得明白。
不过,孟繁岐在这方面看得明白,远在燕京的韩辞却是黯然神伤。
当初西尼会场之上,一个实践一个理论,两边的成果都备受瞩目,也算是一段佳话。
可短短两三个月过去,实践派的孟繁岐新的成果层出不穷,频频突破人类水准,阿尔法狗甚至直接约战世界冠军。
而她目前唯一的理论成就,却被证明只能在玩具级的数据上得出符合的结论,稍有一些其他的变量,就不吻合。
其中的委屈,又怎么说得清!