这章没有结束,请点击下一页继续阅读!
等这群人还忙于复现,调整参数,在训练过程中持续踩坑阶段的时候,孟繁岐后续的实验都能做一半了。
等他们真的能够有一些什么不够成熟的发现时,孟繁岐基于T方法的后续:GPT、BERT和T5三大路线的论文,说不好都已经整装待发了。
“我就是要故意漏出一些破绽,给学界一些希望和曙光,然后在他们觉得自己行了的时候,狠狠地掏出更强的方法,给他们致命一击!”
不得不说,他实在有点恶趣味。
但另一方面,这也是为了孟繁岐私人的利益。
只有开源放出T方法,让更多的人提前采用它、认可它,英伟达才能够更早地对这个方法有充分的信心,对T方法做硬件的专门适配,双方的合作关系更加紧密。
此举能够大大加深他与英伟达之间的羁绊,自然是需要大力推动的。
“BERT方法和GPT方法名字里面都有一个T,这个Transformer便是两者的基础。BERT的全称是来自T方法的双向编码器表示,而GPT的全称是预训练生成式T方法。”
“这两个名字虽然听起来让人觉得云里雾里的,但可以用一种很好记的方式去理解。基础的T方法与此前经典的循环网络一样使用了编码器和解码器组合的结构,BERT专精于编码器,而GPT专精于解码器。”
T方法提出一段时间之后,学者们发现,这种全新的结构并不一定非要遵循原本的那种编码器解码器结合的模式,而是可以仅仅只使用一种格式就取得很优秀的结果。
“其实自然语言处理的任务,核心是一个有关概率的游戏。这些模型在大量的文本和数据上进行训练之后,模型就会非常擅长做填空游戏。它会根据上下文,在文字的空白处填写答案。比如:我今天股票【空格】了。AI就会发现,赚和赔这两个字拥有极高的出现概率,因而会根据其他前后文,选择一个概率更高的词生成在空格位置。”
虽然比较不可思议,不符合人类对语言的理解,但事实的确是如此。
即便是GPT-4那样档次的语言模型,机器也没有任何一点点理解了这个世界。
它只是特别擅长根据前后文,根据你的问题去生成最大概率让你比较满意的回答,这是根据海量文字数据得来的能力。
这点和我们猜谜语特别像,只是看过海量数据又精于计算的模型算得特别准。
“在T方法发布的技术路线之上,BERT和GPT是两个最有人气的语言模型,在原本的时间线上,谷歌和OpenAI选择了不同的路线。”
孟繁岐大概回忆了一下技术路线,这两者的共同点是都使用了大量的文本数据做了预训练,即让模型预先学习海量文本中的知识。
两者最大的区别,是BERT采用了针对不同任务类型做细微专门调整的方式。
而GPT则是通过更加未来的形式,只需要用户直接与其对话,提供指令,便可以去要求它做特定的任务。