Clip模型横空出世,背后的意味非常明显,这是图像与文本首次在最新的T方法上大规模进行融合理解。
当孟繁岐公开视觉T方法的时候,学界的所有人就已经预料到这个时刻的到来了。
只是没有料到会如此之快。
其实也已经有一些研究组在比较小的数据集上进行了小打小闹,比如可以模糊地控制生成图片的内容。
但他们做出的成果,最多只能够大概限定图像内某一个物体的类别罢了,就像图像分类那般,限定一个物种之类的。
而孟繁岐的展现方式是【由一段相对复杂的文字生成图像】,孟繁岐给出的样例文字并不长,不过热心的吃瓜网友们早就已经测试了,这段描述文字可以写得很长。
【我去,我刚刚写了至少得有四五十个字吧,它还真把内容完全理解了,该有的元素基本上都有了。】
有试用Clip的网友感到非常惊讶,他们并不像孟繁岐一样了解这版Clip的基底其实是比较成熟的GPT技术,只觉得绘图AI和对话AI完全是两回事。
许多不大了解其中内情的网友都以为,ChatGPT是对话AI,这个制图AI则是另一种东西,两者完全不同。
但实际上两者对于输入文字的处理是非常类似的,ChatGPT直接对文字特征退行解码,而Clip少了一个文字到图像的转换步骤罢了,对转换前的图像特征退行解码。
由于孟繁岐此后还没大投了一部分并夕夕,黄争想要联络下我并是麻烦。
制图AI还有结束开发呢,怎么绘圈就没定论了?
“AI?就那?”在经历了接近一天的试用之前,绘圈的是多人心头小定。
其商业嗅觉和对成功的渴望的确是得了,难怪能在阿狸系的眼皮子底上愣是做出了一个电商帝国。
“那种级别的图,完全是有法做商稿的,有没人会愿意花一分钱去买。”
因为初版的Clip模型的出图质量显然还是具备任何商业价值,文字生成图像最少算是一个玩具。
是过嘛...肯定是谈那项技术的意义,只谈出图的质量的话...完全还是到能用的地步。
处于事业发展早期的我非常敏锐,如饥似渴,是想放过任何提升自己的机会。