前世的Midjourney则比较擅长各种艺术化的风格,生成的图像常有非常精美的结果。
隐姓埋名,一举夺得绘画大赛金奖的那副【太空歌剧院】便是Midjourney的作品。
按理来说,这个路线更具美感,既能够起到震撼宣传的效果,又能吸引大量用户,应该是上上之选。
不过对比开源的扩散模型办法,Midjourney使用的是公共平台机器人来处理用户的请求。
由于其封闭盈利的模式,孟繁岐对这款AI的具体技术细节知之甚少,也不清楚它最为核心的技术关键是什么,因而只得放弃这条线路。
“如果从前世的知名度和受欢迎情况来看,扩散模型和Midjourney会更加稳定,不过DALLE在我重生前已经和ChatGPT进行了组合,有非常大的潜力,考虑到以后的发展情况的话我需要对两者路线进行融合。”
正是因为需要集两家之长处,孟繁岐的扩散绘图AI才会比预期要晚了几个月。
最终形成了一个比较成熟的压缩、扩散、和隐空间再扩散三步走的系统。
这种整体做法的实验、讨论和最终确定,耗费的时间甚至比正式训练还要久。
“也不知道量子计算机这种计算性能数量级提升的东西什么时候能弄出来,如果算力够快,其实能省事不少。”孟繁岐想起这件事情还是觉得疲倦。
之所以要拆分出这么多模块,其中最大的原因就是计算资源消耗的问题。
图像的分辨率是平方,T方法内的运算又有维度上平方的操作,用户觉得256和512分辨率的图片差不多,可反应到全局则往往会是一个数量级的提升。
为此,只得将扩散模型的学习步骤放到低纬度空间里进行采样。
说直白点,就是先把分辨率搞低,从而极大地减少扩散前后步骤的计算量。