第233章 GPT的魅力所在

重生之AI教父 CloseAI 1589 字 16天前

“你这说的是不是太离谱了,你只是做一个示范,给模型一个提示,根本就没有修改过任何的模型参数,为什么它会有效果的提升?”听完孟繁岐对两种办法的形容之后,阿里克斯眉头紧皱:“结果如果真的是这样,那不是彻底成玄学了?”

孟繁岐心说可不么,这东西听起来是不可思议,但确实有效。

直到他重生前,这件事也没有一个特别靠谱的严肃解释。

而且这还不是最神奇的地方。

上面所说的那种,给GPT一个例子,然后让他做这样的工作,叫做One Shot学习。

因为至少,你还让它看了一个例子,做了一次示范。

而在后来的ChatGPT和GPT-4的时候,更多的用户使用情况,是根本不会给模型任何例子的。

一般冲上来就直接布置工作了,比如“帮我翻译一下这个句子”又或者是“帮我以XX为题写一个XX”。

这种模式叫做Zero Shot学习,连例子都不用给,直接开干。

不管是分类文本,学习情感,写作文案还是翻译句子,不多废话直接安排,它自己就能看懂要做什么。

这才真的符合孟繁岐在人机大战的时候展现的那个概念视频,多种功能合而为一。

同时,它也是GPT与BERT最为不同的地方,这种独特的使用方式使得ChatGPT效果一旦达标之后,直接就成为了现象级的产品。

毕竟谁能拒绝这种十几合一的多面手智能小助手呢?实在太酷了。

“你规划中的BERT和GPT,其实就是自编码和自回归。GPT会更擅长生成任务,翻译和问答。BERT则会更加擅长重建文本,做语言的分类。”

辛顿仍旧非常老辣地抓住了两种方式的重点,但即便是这位AI老教父,他的预测终究还是出现了偏差:“我个人觉得,BERT的模式会强大很多,双向编码虽然牺牲了直接生成文本的能力,但对语言中各个词汇的理解会更加到位。GPT只能单向预测下一个文本,它对句子之间的内在联系理解是不够到位的。”

孟繁岐觉得辛顿虽然支持BERT,但他的预测和分析并不能算错。

毕竟ChatGPT经历了1、2、3、3.5四代迭代,才孕育出了ChatGPT。

在亿级别的时代,GPT需要四五倍的参数量才能够维持BERT级别的性能。

谁都没有想到,模型参数量到达接近两千亿的规模之后,竟然涌现出了这般神奇的超能力。

如果只从目前几千万甚至只有几百万的参数量规模去考虑的话,GPT的实力的确很难去和BERT相比拟。

“我推荐伱还是把主要的精力放在BERT这种模式上,T方法的效果已经非常优秀了,在你加入了双向形式,专注编码之后,在很多特定的任务上都会有巨大的突破。”

孟繁岐只是笑了笑,没有争辩,作为重生人士,他清楚哪些建议比较有价值,哪些建议是被时代所局限了。