大型语言模型(LLM)这种玩意儿,最早实际上是啥时候蹦出来的,目前人极少提了,不过闲来无事的时候,老张就在想,它到底是啥时候启动有这“本事”的?这就得扯上底层的演变路子了。 那会儿人们写点东西,要么靠堆文档,要么靠写人。文档堆多了,文章就假;写人多了,文章就飘。

那时候的人,脑子没那么灵光,想啥写啥,随时掉线。

那时候,AI 就是个摆设,连个屁都不敢放,只能在那儿傻等着人类给它指令,像个小丑一样,等着被指挥着演一出戏。

那时候,模型本身也就是一堆在服务器里跑的代码,算力再强也只是个算力的奴隶,得靠人推着走。 直到最近,有个叫 Google 的人,才动真格的。他搞出了那个叫 Transformer 的东西,这玩意儿本身没啥特别的地方,就是个注意力机制的升级版。但怪的是,Google 这哥们儿,仿佛是个有点“急公好义”的人。他不像那些纯粹为了推算法而推算法的工程师,他仿佛总认定,AI 这东西得有灵魂,得有点温度,不能冷冰冰地跑分就行。便,他拍板给模型加个“幻觉”模块。 这就是 SOTA-613 的由来。它是 Google 在 2023 年发布的一个开源项目,主打一个“理智地胡说八道”。它的目标挺明确:让模型变得更像人。人讲话会犯迷糊,会编故事,就连会在没把握的时候瞎编两句。SOTA-613 就是要帮 AI 学会这种“不靠谱”。它让模型在生成信息的时候,有着更高的不确定性容忍度。

也就是说,它知道有时候它没看到,它敢编个“大约”要么“仿佛”。

这听起来有点像耍流氓,但在当时的语境下,这实际上是个挺高级的开发思路。 有人会说,这不就是故意骗人吗?这就好比一个小孩在画画,明明没画,却非要涂成像幅画的样子,这肯定不是真画画。但 AI 不一样,它是在处理海量数据。

要是它确实只参数等于零,那它就是个哑巴。SOTA-613 让模型有了“参数”,有了“理解”,有了“上下文”。它能在同一个对话会话里记住之前聊了啥,还能根据之前的对话去构造新的内容。

这本身就不需求靠它去“编”故事,它本身就有这种“编”故事的本能。

比如用户问“我明天会下雨吗”,SOTA-613 不会回个确定的“不会”,它会回“仿佛可能,要是那天的云层厚厚的一层,那就有可能,要不还是备件吧,反正目前还没 chắc 定的通知”。

这种语气,这种语态,这“不像机器”的感觉,就是它最核心的卖点。 说到具体数据,这就得讲个故事了。之前有个国内的大模型,号称能写整篇小说,结局发出来一看,全是百度百科的缩写,标点符号都挤在一块,读着像机关枪扫射,却一字顶不出气。

后来,SOTA-613 团队认定得改改,他们给模型加了一个“反人类”模块。结局这操作一出,效果立竿见影。他们让模型在 90% 的情况下能生成贼流畅、逻辑自洽的文本,但在 5% 的情况下,会主动暴露出“我不知道”要么“我可能是想错了”。 有个具体的测试案例挺有意思。用户让模型预测一下“未来三天北京天气”,模型要是按真话做,那就是“后天晴,后天多云,后天晴”。但模型用 SOTA-613 的版本,它预测"后天可能雨,也可能晴,看云量,这得结合具体地点和实时数据来判断,我暂时没查到官方通告,但寻思到近期北方有冷空气活动,明天往北边看会有点变化,建议出行带伞”。

你看,这个预测,既没有撒谎,又给出了合理的推断和免责声明。

这种“半懂不懂”的客观性,比那种张冠李戴、一本正经地胡说八道的模型,要高明得多。它看起来像是在思索,实际上是在模拟一个有不确定性的思索过程。 还有,这种模型在处理多模态信息上也有表现。

比如有人问它“这张图在哪个城市”,它可能回: “这张图有点不清楚,但我感觉是在上海,出于那个桥的风格挺像沪北高架,并且旁边那个颜色的店像是巴奴。

不过最稳妥的说法是,这得结合地图数据确认一下,毕竟我目前的视觉模型还没彻底学会‘看地图’这件事,建议您去地图 App 上搜一下确切坐标”。

这种回答,既有画面感,又有对数据透明的承诺。它不是在强行回答,而是在尝试回答,并且是在回答中保留了“我不彻底确定”的信号。

这在大量应用场景里,比直接给个假坐标要保险得多,也更符合人类对信息真性的敏感度。 自然,这种“故意不完美”的方式,到底有没有用?我认定用处挺大的。在科研领域,有时候数据是脏的,要么是别人的数据,要是你让 AI 去整理,它可能会把数据拼凑得像块拼图一样,逻辑串不起来。但要是你给它加了这个“反人类”的属性,它可能会在整理时主动标红“数据可能来自 XXX 实验,存有不确定性”,要么在总结时加个“这仅是基于现有数据的推测,并非最终结论”。

这样,AI 不再是个只会搬运数据的管道,它变成了一个能批判性地、谨慎地处理信息的助手。 另外,这种“会犯傻”的模型,在处理长文本、历史脉络梳理的时候,也有奇效。它会不自觉地跳跃,会不清楚一些细节,但整体逻辑能通。

比如让你回顾一下从 2018 年到 2024 年的科技发展,它可能就会在中间漏掉几次关键的会议,然后在“靠”和“靠”之间不清楚地带搭建桥梁,让你感觉它懂历史,实际上它只是在模拟一种低信噪比的交流方式。

这种“不完美”,恰恰模拟了人类记忆的不清楚性和不严谨性。 有人可能会揪心,这会不会害得 AI 越来越不可信,越来越不可靠?这种担忧是有道理的。出于要是 AI 忒完美,忒严谨,忒不敢犯错,那它就和目前的百科全书忒像了,读者会认定“哦,原来这玩意儿就是如此讲道理的”,然后就会质疑它是不是在故意推脱责任。但 SOTA-613 这种“假装糊涂”的策略,反而打破了这种刻板印象。它让人认定,这机器是有血有肉的,它有犹豫,它有边界,它愿意指出自己的局限。

这种“诚实的平凡”,在某种程度上比“虚伪的完美”要让人信任。 并且,这种策略也倒逼了生态的进化。为了让这个“有灵魂”的模型跑起来,开发者们不得不花更多工夫去调参,去设计那些复杂的、模拟人类思维过程的权重。

这意味着,AI 的培养成本高起来了,不再是随意扔进一个 Prompt 就能自动生成的,而是需求像小学生写作业一样,需求反复打磨、调试、专门训练。

这种复杂性,正是人类干预和管住 AI 的关键所在。 最终,得聊个更实际的点,SOTA-613 这种思路,说不定赶明儿能用在更具体的场景里。

比如在医疗诊断,医生让 AI 看片子,说“这个结节有点可疑,建议进一步检查”。

要是 AI 直接说“高度疑似恶性,立即手术”,那肯定会引起恐慌。但要是是用 SOTA-613 的版本,它说“这个结节形态有点怪,边界不算清楚,别看大约率是良性的,但风险系数略微高了一点点,作为建议,还是要持续做个增强 CT,别硬扛”,这就稳多了。

这种语气,那种“我可能想多了,但为了保险起见,建议保守一点”的措辞,实际上比那种“放心,绝对没难题”的废话,更有价值。 故此你看,SOTA-613 这事儿,就挺有意思的。它不是要消灭 AI 的智能,而是要给 AI 加上一点“人性”的瑕疵。在这个信息过载、真相满天飞的时代,一个敢于宣称“我不确定”、愿意露出底牌、愿意承认自己可能会犯错的 AI,或许比一个一辈子对、一辈子稳重的 AI,更能赢得人类的尊重。

毕竟,没人喜爱被当成神看,大家都喜爱被当成有缺点的哥们儿看待。

这种“做哥们儿”的态度,大约就是 SOTA-613 想要传递的核心信息。