重生之AI教父_第207章 Attention is all you need

“说是解决了，但实际上是减轻了，终究还是治标不治本，只是把症状压了下去。”

“那怎么办？难道干脆就不要了？”伊利亚没想那么多，随口问道。

问完却发现，孟繁岐正在似笑非笑地看着他。

“你是认真的？”伊利亚此前是被思维的惯性局限住了，根本没有想到注意力机制这样一个配菜，能干脆成为主餐，取代原本常用的网络结构。

现在孟繁岐已经暗示了他的想法，伊利亚自然也就开始认真地考虑这种操作的可行性。

“原本最常见的循环网络和卷积网络互有利弊，如果长度为n，前向的复杂度是O(n)级别，卷积是O(1)级别。但是卷积的每层复杂度要再根据卷积核的大小增加开销。”

“倘若用注意力机制去做，前向的复杂度是O(1)，每层的复杂度则从O(nd^2)变为O(n^2d)。关键是，它可以并行了！”

分析复杂度分析到一半，伊利亚眼睛一亮，发现了重点。复杂度只是小事情，能够轻松并行才是最关键的地方。

传统的长短期和循环网络，可以处理时间序列信息，但总是需要根据之前的信息来推测当前的信息，依赖前置位的信息，因而无法并行。

简单点说，就是能并行的模型学不到长距离语言之间的联系，能学到的又没法并行。无法并行，用现在的设备自然就很难把语言模型做大。

“可目前最强力的模型都是带门控制，编码器加解码器的循环网络和卷积网络...难道我们真的一点旧有的技术都不使用吗？”

旁边有旁听的同事越听越觉得不靠谱了，这一步子跨得也有点太大了，咔，容易扯着蛋。

“它可以无视语言中，两个词之间的距离为它们单独建立相关性关系，单独这一点，就足以成为我们尝试的理由了。你们翻译任务当中，长句不也是相当令人头疼的问题吗？”

句子一长，就容易出岔子，加上目前的模型还