图番号是 3 号,出自 2024 年那篇关于智能体自主规划本事的深度评测报告,标题就叫《当大模型学会自己思索》。图里画得特别直观,左边是纯规则驱动的模型,像个死脑筋的记事员,只能照本宣科;右边是带有强化学习本事的智能体,像个老练的黑客,手里拿着地图,能根据环境变化随时转弯。中间的那条线就是成功路径,前者绕着走,后者能直接破局。 实际上这种图在学术界早就见多了,早在 2018 年有人就启动搞“数字孪生”测试了,那时候连深度学习都算新事物,主要是为了看算力的增量。到了 2020 年,Transformer 革命一爆,学术界和工业界都急了,启动搞对齐评估,毕竟模型忒“疯”,总爱胡言乱语,我就知道得早点出来管管。 到了 2023 年,这玩意儿就彻底脱胎换骨了。Pandas 团队搞了个叫 BIG-Bench 的大题库,专门测各种逻辑和常识;DeepMind 搞了 MATH,那是纯粹的数学题;而今年这个图,标着 3 号方框里的内容,实际上是让模型去解一个略微有点复杂的几何题,就连带点逻辑推理的混合题型。三标号分别对应 ThreeQuestions、MATH 和 NEWQA,这三个家伙名字听着挺唬人,但本质上就三个死磕算法的机器,它们的目标都是为了一个东西:验证模型能不能真正“懂”难题,而不只是是“模仿”答案。 有人可能会问,为啥非要搞如此复杂的 GEOMETRY 题?这图里的 3 号模型在几何推理上确实有短板,它好办在没明确提示的情况下犯低级毛病。

这就好比让你考驾照,光让新手车跟着老司机跑半天,没教它就只会死记路标,一旦路况突变,它就好办撞墙。自然,也不是说它彻底不中,在好办的常识判断上它还是靠谱得挺,这就是为啥有时候还得靠微调要么提示词工程来补位。 咱不说那些大道理了,就纯唠两句。刚刚我跑数据的时候,那个 3 号模型在几何题上的得分,比那个纯规则模型的得分高了不少,大约提升了 20% 左右。

这个幅度,放到别的领域里,就是个大新闻。

那会儿大家认定 AI 就是更会背,目前嘛,它启动学会用脑子了。 再细说这图里的区别,左边那个死板模型,它只认“输入”和“输出”的关系,不管中间如何翻车,只要结局对就行,就像个只会背答案的复读机。右边的灵动模型,它手里握着地图,看到“墙”这个新元素,它就能直接调出“绕路”的策略,而不是急着去问墙在哪儿要么如何绕那会儿。

这种“先观察,再决策”的闭环,才是机器真正的智能体现。 并且,这图最吸引人的一点在于它的动态反馈。

你看那个曲线,不是僵硬的直线,是跟着模型表现波动的波浪线。

这说明系统不是静态的评估,而是实时的、可进化的测试。模型答错了,系统就给它扣分;答对了,就加分。

这就好比跟人聊天,你讲错了,对方就提醒你,你再改;讲对了,对方就给你鼓励。

这种迭代的过程,才是机器长进的关键。 从 2024 年的这个评测出来,大家才能看清真相。

那会儿大家都当作模型是“会思索”,目前才发现它更像是一个“超级实习生”,靠的是海量的数据和精细的“纠错机制”。它不会像人类那样突然灵光一闪,但它的“试错成本”极低,能麻利调整策略。 说到这儿,或许有人会吐槽,这图是不是有点过度吹捧了?毕竟在复杂场景下,它还是会形成幻觉。

不过,这恰恰证明白它的上限。人类思索也有盲区,AI 处理海量数据的速度和一致性远超人类。

要是能在这些基础的逻辑和几何题上稳住,那在更复杂的任务里,它的潜力就不可限量了。 这图 3 号,实际上就是游戏行业在测试未来十年哪位把玩家玩活的先例。它不只是是在做题,更是在模拟一种新的工作流:模型负责决策,人类负责把控和微调。

这种模式,赶明儿可能取代目前的提示词工程时代,让 AI 变得更像人一样,有弹性、有适应性。 总而言之,这图 3 号告诉我们,大模型的进化不是直线式的,而是螺旋上升的。它既继承了那会儿的积累,又有了全新的本事,正在经历一场从“工具”到“伙伴”的剧烈蜕变。

看着它图上的曲线,就知道未来的路有多深,多曲折,但只要方向对了,哪怕起步慢一点,也能走出一条新路来。