孟繁岐微微点了点头,心中想着:“图片中的像素其实是非常冗余的,比如人类就可以轻松通过很局部的内容推测出物体的全貌,根据恺明后来的研究,甚至只需要原本百分之十几二十的像素,就可以完成图像的重构。”
“借助注意力来筛掉一部分像素,的确可以极大地减少计算量。使用这种办法,就可以在原本的速度下采用更高分辨率的图像,对关键的部分会处理得更加清楚,也就更加准确。”
孟繁岐认同这种做法,不过那是在图像任务当中了,在语言问题当中是大不一样的。人类的语言信息含量是非常高,密度也很大,即便只少一两成信息,甚是一两个字的差别,都很有可能会彻底改变句子的含义。
比如【我很喜欢】和【我不喜欢】,一字之差含义完全就不对了。因而类似的做法在语言上是不大行得通的。
不过可以像伊利亚一样,换一个做法去使用注意力机制。
“注意力机制如果应用在语言和文本当中,其实计算的就是一个【相关程度】,一个句子当中每一个词与其余词的相互关系和相关的情况。”
孟繁岐也没想到伊利亚的思路这么灵活,自己年初刚刚在搜索引擎中稍微利用了一下类似的概念,也没有写作论文,但伊利亚就很快捕捉到了这种技术在翻译类型任务上的可能性。
“天才人物对技术的嗅觉果然不得了啊...”孟繁岐有些感慨。
注意力机制毕竟二十年来都是图像领域的概念,它使用到语言文本里的形式是有很大变化的,这里面听起来很像很容易,但实际上的差距并不小,不是那么容易就能想明白的。
更别提用代码去实现了。
“如果使用注意力机制的话,为什么还一定非要使用旧的循环网络和长短期记忆不可呢?”
孟繁岐指出了这个思维惯性不合理的地方。
“传统的循环神经网络建构语言的时间序列信息,前面的词都要依次传递到后面的词上面,这种信息的反复堆积有些浪费,并且全都堆在一起,直觉上不好区分。”
本小章还未完,请点击下一页继续阅读后面精彩内容!
“你是说文字的长期依赖问题?”伊利亚微微皱眉,捕捉到了重点:“不过长期依赖问题,已经相当程度上被循环网络的进化版本,长短期记忆方法又或者是各种门控制给解决了。”