重生之AI教父_第258章每个人的贴身医生

几人的担忧不无道理，给病人提供医学建议是非常严肃的事情，需要极其专业的知识储备，也要负担不小的责任。

孟繁岐也清楚，这种AI助理问答的形式，不能保证百分之一百的正确。因此在回答的最后，医疗GPT也会提供相关页面的链接供用户复核，并提醒病人最后要遵循医嘱。

“你们还是低估GPT和BERT的实力了。”初版的两个受限于本身的规模和数据的质量以及大小，其性能并不足够突出。

不过孟繁岐并没有停下自己的脚步，在GPT于BERT的初版结果符合预期之后，他就已经再次扩大了规模，训练了一个更大的BERT基准模型，获取基本的语言理解能力。

数据方面更是挥斥重金，让各大名校的医学生来做中英对照，将这些资料整理成模型需要的格式。在这个新版BERT方法的基础上，专门针对这批医疗数据做调整。

“我这种奢华的资料整理方式，远比外包给印度佬越南佬的文本标注质量要高多了。”由于文本数据量太过庞大，许多科技公司的数据标注都是外包给第三世界的。

在早期，数据的质量没有那么受到重视，大家还是以量为主，并且许多公司都在这件事情上控制了成本，不舍得下血本投入。

可孟繁岐非常清楚，OpenAI正是依靠严格的数据质量和人工反馈的纠正方式创造了奇迹。

并且23年也有文章证明，极其优异的高质量数据可以极大地减少语言大模型对参数规模和数据规模的需求。

这也是为何，即便众人都不理解，孟繁岐也要下血本整理出这份数据。

“伱们别看我给的钱多，我的数据验收标准也是非常严格的。稍有不妥的地方，我都不会付钱。”孟繁岐当然不是冤大头，既然出了大钱，自然也是高标准严要求。

“好在只是一个医学方向，要是全品类数据，即便是你也砸不起这个钱。”这大半个月看着孟繁岐疯狂支出，韩辞是冷汗直冒。

知道你有钱，但也经不起这么花啊！

“全品类数据就不需要这么严格的把关了，医疗信息人命关天，我慎重一些并不过分。况且这也是一锤子买卖，前期基建信息多，以后持续维护需要的金额就会小非常多了。”孟繁岐看着高质量医学数据库逐渐成型，心中清楚，这款专精医疗内容问答的智能模型已经可以开始训练准备了。

“运气好的话，差不过12月能出来。”即便手握数百张泰坦，孟繁岐差不多也需要一两个月的时间才能推动这款产品投入使用，目前的落后硬件对AI的限制可见一斑。

“过几天得问问老黄了，不知道他的帕斯卡系列研究得怎么样了。”孟繁岐心中很是焦急，P100系列显卡一出，他的训练效率至少提升三四倍。

等到那时，他就可以组建自己的超算中心，后续的任何进展都是事半功倍。