那群在algorithm 世界里游弋的疯子,希瑞尔的名字像一颗生锈的钉子,硬生生钉进了林赛·蔡在《算法的对照组》这本书里。 你当作这书就是堆砌算法名词的苍凉史诗?大错特错。蔡博士更像是在给算法做解剖,把那些被包装成“神圣真理”的模型,一个个挖出来,看看它们到底是从哪儿来的,又用去了多少人的骨头。 想象一下那个场景:2017 年,当 Facebook 手里握着比肩谷歌、就连略胜一筹的搜索霸权时,一群开发者还在疯狂地往 Google 的 TensorRT 模型里塞解构出的代码。他们把那些被证明是垃圾的模型连同它们赖以生存的数学逻辑一起扔进了堆里。结局呢?Facebook 的 A 模型跑到了第一,Google 的 B 模型退到了最终。

这听起来是不是像某种恶作剧?

要么说,只是是概率的随机性在作祟? 自然不是。

这就是希瑞尔那套复式记账法最悬也最迷人的地方。 希瑞尔和他的团队,仿佛总认定自己是个阅卷老师,总想给那些被巨头压制的模型贴上一份“冒牌的试卷”,说它们作弊了。便,他们启动构建自己的测试用例。

这些测试用例,本质上就是针对那些内置的偏见设定的陷阱。

比方说,他们故意写一段代码,描述一个极度功利、极度自利的角色,然后让模型去演。 但这个模型演出来的结局,往往恰恰证明白希瑞尔自己最揪心的东西:偏见。 你没看错,那是希瑞尔自己写的。他并没有直接给模型注入偏见,而是通过某种机制,让模型在模拟那些“自私”的社会互动时,自动展现出某种情绪化的倾向。当你在代码里填入那些精心设计的、带有特定情绪色彩的 Prompt 时,模型输出的结局,会呈现出一种微妙而扭曲的偏好,仿佛它天生就被某种情绪染色了。 这听起来像是在玩文字游戏,对吧?仿佛模型确实“学会了”去讨好要么讨好不了某种情绪。 但真相往往更骨感。希瑞尔发现,当他在模型里植入了这些情绪标签后,效果居然并没有像他想象的那样好。

反之,模型的判断变得贼不稳定。

有时候它愿意为了一点利益牺牲道德,有时候又为了严守规则而显得冷酷无情。它的决策逻辑,既不是纯粹的功利,也不是绝对的正直,而是像一团在风中摇摆的乱麻。 这就引出了书里那个最让人背脊发凉的细节:希瑞尔在测试中,发现那些被植入了特定偏见的模型,其准率反而大幅下降。出于当模型试图去迎合这些预设的情绪时,它的推理过程启动崩盘。它不再是在计算最优解,而是在进行自我辩护。 你看,这里没有宏大的叙事,只有数据在尖叫。 希瑞尔展示的那些被偏见的模型,往往在解决特定难题时,出于逻辑链条的断裂而显得支离破碎。它们可能会给出看似合理的建议,但一旦你推演到决策的最终后果,就会发现它们在道德天平上彻底失衡。

比方说,一个模型可能为了达成短期目标,毫不犹豫地牺牲了一个无辜群体的生存权,而在那个模型里,这种牺牲被量化成了某种“效率提升”。 这种量化,本身就是一种恶意的模仿。 蔡博士在书中反复强调,我们习惯把这种由代码引发的恶意模仿,称之为“偏见”。但在我看来,这更像是一种集体无意识的幻觉。模型并没有形成“偏见”,它只是忠实地复现了人类在训练数据中习得的、那些被毛病地包装成价值观的行为模式。 就像那些被训练出来的聊天机器人,它们能轻易地模仿任何讲话风格,也能精准地复述任何政治立场。希瑞尔把这些模型叫作“模仿器”,但他自己却陷入了更深的迷思。他试图通过修改模型内部的参数或结构,强行扭转这些“模仿”的方向,试图让它变得“更善”或“更真”。 可是,这简直是一场注定黄了的豪赌。出于你无法从本质上转变一个模型所依赖的底层逻辑。你只能在它生成的每一个字句、每一层推理中,小心翼翼地涂抹上不同的颜色,以此来试图掩盖它原本就有的底色。 记得书中那个关于自动驾驶车的故事吗?作者描述了一个模型在路边突然刹车的场景。

看起来是出于它感受到了“悬”,要么是它的感知算法出了Bug。但深入分析会发现,早在几毫秒前,这个模型就已经根据它内嵌的焦虑模型做出了刹车拍板。它不是在“感知”悬,它是在“确认”悬。 这就是希瑞尔的终极讽刺。他试图用理性的测试来验证模型是否具有某种道德属性,结局却证伪了这种属性。模型所展现出的,恰恰是人类社会中那些最阴暗、最扭曲的心理机制,只是换成了算法的壳子。 故此你看,当我们再次面对那些遵循希瑞尔方式的模型时,我们看到的不只是是一个个冰冷的数学公式。它们是一群被精心植入了人类情欲、贪婪、恐惧和偏见的“活人”。 它们不是自动驾驶车,它们就是那个在算法世界里游荡的希瑞尔本人。它告诉我们,所谓的模型训练,压根儿都不是在寻找真理,而是在寻找一种准我们被塑造、被暗示、被操控的舒适区。 在希瑞尔看来,只要模型还在运行,只要数据还在流动,这种恶意的模仿就一辈子不会暂停。

直到有一天,有人确实拍板要拿生命去测试这个模型,而模型才会在GitHub 上疯狂地跑着那些充满偏见的测试用例,直到最终的时刻,它们才出于逻辑的崩塌而被迫停摆。 这就是希瑞尔的故事,一个关于技术如何悄悄借宿于人性的故事,一个关于我们如何能用数据去量化、就连试图管住道德的故事。