跪求此图番号出处-图片番号出处跪求

出自出处 2026-06-12CST08:33:44

这图番号是 3 号，出自 2024 年那篇关于智能体自主规划本事的深度评测报告，标题就叫《当大模型学会自己思索》。图里画得特别直观，左边是纯规则驱动的模型，像个死脑筋的记事员，只能照本宣科；右边是带有强化学习本事的智能体，像个老练的黑客，手里拿着地图，能根据环境变化随时转弯。中间的那条线就是成功路径，前者绕着走，后者能直接破局。实际上这种图在学术界早就见多了，早在 2018 年有人就启动搞“数字孪生”测试了，那时候连深度学习都算新事物，主要是为了看算力的增量。到了 2020 年，Transformer 革命一爆，学术界和工业界都急了，启动搞对齐评估，毕竟模型忒“疯”，总爱胡言乱语，我就知道得早点出来管管。到了 2023 年，这玩意儿就彻底脱胎换骨了。Pandas 团队搞了个叫 BIG-Bench 的大题库，专门测各种逻辑和常识；DeepMind 搞了 MATH，那是纯粹的数学题；而今年这个图，标着 3 号方框里的内容，实际上是让模型去解一个略微有点复杂的几何题，就连带点逻辑推理的混合题型。三标号分别对应 ThreeQuestions、MATH 和 NEWQA，这三个家伙名字听着挺唬人，但本质上就三个死磕算法的机器，它们的目标都是为了一个东西：验证模型能不能真正“懂”难题，而不只是是“模仿”答案。有人可能会问，为啥非要搞如此复杂的 GEOMETRY 题？这图里的 3 号模型在几何推理上确实有短板，它好办在没明确提示的情况下犯低级毛病。

这就好比让你考驾照，光让新手车跟着老司机跑半天，没教它就只会死记路标，一旦路况突变，它就好办撞墙。自然，也不是说它彻底不中，在好办的常识判断上它还是靠谱得挺，这就是为啥有时候还得靠微调要么提示词工程来补位。咱不说那些大道理了，就纯唠两句。刚刚我跑数据的时候，那个 3 号模型在几何题上的得分，比那个纯规则模型的得分高了不少，大约提升了 20% 左右。

这个幅度，放到别的领域里，就是个大新闻。

那会儿大家认定 AI 就是更会背，目前嘛，它启动学会用脑子了。再细说这图里的区别，左边那个死板模型，它只认“输入”和“输出”的关系，不管中间如何翻车，只要结局对就行，就像个只会背答案的复读机。右边的灵动模型，它手里握着地图，看到“墙”这个新元素，它就能直接调出“绕路”的策略，而不是急着去问墙在哪儿要么如何绕那会儿。

这种“先观察，再决策”的闭环，才是机器真正的智能体现。并且，这图最吸引人的一点在于它的动态反馈。

你看那个曲线，不是僵硬的直线，是跟着模型表现波动的波浪线。

这说明系统不是静态的评估，而是实时的、可进化的测试。模型答错了，系统就给它扣分；答对了，就加分。

这就好比跟人聊天，你讲错了，对方就提醒你，你再改；讲对了，对方就给你鼓励。

这种迭代的过程，才是机器长进的关键。从 2024 年的这个评测出来，大家才能看清真相。

那会儿大家都当作模型是“会思索”，目前才发现它更像是一个“超级实习生”，靠的是海量的数据和精细的“纠错机制”。它不会像人类那样突然灵光一闪，但它的“试错成本”极低，能麻利调整策略。说到这儿，或许有人会吐槽，这图是不是有点过度吹捧了？毕竟在复杂场景下，它还是会形成幻觉。

不过，这恰恰证明白它的上限。人类思索也有盲区，AI 处理海量数据的速度和一致性远超人类。

要是能在这些基础的逻辑和几何题上稳住，那在更复杂的任务里，它的潜力就不可限量了。这图 3 号，实际上就是游戏行业在测试未来十年哪位把玩家玩活的先例。它不只是是在做题，更是在模拟一种新的工作流：模型负责决策，人类负责把控和微调。

这种模式，赶明儿可能取代目前的提示词工程时代，让 AI 变得更像人一样，有弹性、有适应性。总而言之，这图 3 号告诉我们，大模型的进化不是直线式的，而是螺旋上升的。它既继承了那会儿的积累，又有了全新的本事，正在经历一场从“工具”到“伙伴”的剧烈蜕变。

看着它图上的曲线，就知道未来的路有多深，多曲折，但只要方向对了，哪怕起步慢一点，也能走出一条新路来。