“说是解决了,但实际上是减轻了,终究还是治标不治本,只是把症状压了下去。”
“那怎么办?难道干脆就不要了?”伊利亚没想那么多,随口问道。
问完却发现,孟繁岐正在似笑非笑地看着他。
“你是认真的?”伊利亚此前是被思维的惯性局限住了,根本没有想到注意力机制这样一个配菜,能干脆成为主餐,取代原本常用的网络结构。
现在孟繁岐已经暗示了他的想法,伊利亚自然也就开始认真地考虑这种操作的可行性。
“原本最常见的循环网络和卷积网络互有利弊,如果长度为n,前向的复杂度是O(n)级别,卷积是O(1)级别。但是卷积的每层复杂度要再根据卷积核的大小增加开销。”
“倘若用注意力机制去做,前向的复杂度是O(1),每层的复杂度则从O(nd^2)变为O(n^2d)。关键是,它可以并行了!”
分析复杂度分析到一半,伊利亚眼睛一亮,发现了重点。复杂度只是小事情,能够轻松并行才是最关键的地方。
传统的长短期和循环网络,可以处理时间序列信息,但总是需要根据之前的信息来推测当前的信息,依赖前置位的信息,因而无法并行。
简单点说,就是能并行的模型学不到长距离语言之间的联系,能学到的又没法并行。无法并行,用现在的设备自然就很难把语言模型做大。
“可目前最强力的模型都是带门控制,编码器加解码器的循环网络和卷积网络...难道我们真的一点旧有的技术都不使用吗?”
旁边有旁听的同事越听越觉得不靠谱了,这一步子跨得也有点太大了,咔,容易扯着蛋。
“它可以无视语言中,两个词之间的距离为它们单独建立相关性关系,单独这一点,就足以成为我们尝试的理由了。你们翻译任务当中,长句不也是相当令人头疼的问题吗?”
句子一长,就容易出岔子,加上目前的模型还