台下的诸多学生当中,只有路易斯和韩辞能够跟上他的节奏,这还是因为两人都提前对这些内容有了了解。
并且韩辞根本就不是斯坦福计算机院的,虽然走了李飞飞的邀请,但她来读的仍旧是应用数学。这丫头只是来蹭课的。
“注意力函数可以描述为:将一个查询和一组键值对映射到输出的操作,其中查询、键、值和输出均为向量,输出被计算为值的加权和。其中每一个值的权重是由一个注意力函数来计算的,该函数以查询向量和键向量作为输入。”
“而我提出的缩放点积注意力,如书的287页所示。输入由三部分组成,维度为dk的查询向量和键向量,以及维度为dv的值向量。我们将单个查询值和所有的键一起计算内积,然后大小缩放根号dk,最后对内积结果做softmax函数以获得值的权重。”
“...”
这一系列操作是T方法的基础,自然也是GPT和BERT方法的基本构成部分。
如果想要理解这几个月发生的一切,什么AI潜伏,AI医生,就必须要理解许多这样的操作。此乃是AI生成内容,AI大模型时代最为重要的核心原理,当然要着重讲解。
只是同学们却不知晓,听得那是头昏脑涨,生不如死。
按这种讲解方式,即便是罗德教授,也难以在短时间内将内容消化。
他最开始还时不时地在手边的白纸上做些记录和演算,但很快就感觉有些不对劲了。
不少同学在下面开始用手机拍摄板书,但仔细看了一会却发觉似乎意义不大。
绝大部分的内容其实这本新教材上已经有了。
现在的问题并不是这群高材生无法理解推导的过程,而是他们对各个步骤的意义知之甚少。
不理解为什么这里要做类似的操作和变换,即便能够理解式子推导的过程,几轮下来也被枯燥的数理给淹没了。
说白了就是没有一个主线,没有清晰的目的性。
“式二经过演化....得到式三,这个我好像看明白了。emmm后面怎么又有一长串推导,式六....我好像理解了。等下,刚刚的式二是什么来着?”
虽然能够理解,却不知道为什么要理解,直观感觉上都是无意义的高密度信息。
几十分钟下来,人就彻底晕了。
“好了好了,讲课的确是一门学问,不能由着你这样来。”不得已,罗德教授及时叫停,再继续下去,今天这节课的时间就算是浪费了。
“您看,我就说我没法讲吧。”见罗德教授发声叫停,孟繁岐喜出望外,他也感觉不大自在。