Do you think AI is more rational than you? Actually, it's more biased than you are.

你以为AI比你理性？它其实比你更偏心中欧国际工商学院·2026年05月15日 11:54一份AI时代的清醒生存指南人人都把“AI决策”挂在嘴边，默认它就是客观理性的化身。可它真的可信吗？中欧国际工商学院金融学教授余方在近期演讲中提到：AI并不完全理性，它会悄悄“继承”甚至“放大”人类的偏见。本文基于余方教授演讲整理。今年以来，我每天起床都会感到一种隐隐的焦虑——AI正直接影响每一个人的工作。作为行为金融学的研究者，我想分享最近的观察：AI的崛起，会给我们的决策方式带来什么样的改变？要理解这一问题，我们首先需要回顾一下行为金融学的思想起源。现代经济学有两大对立学派：以理性人假设为根基的芝加哥学派，和强调市场失灵、需要政府干预的凯恩斯学派。延伸到金融领域，便分化成了有效市场理论与行为金融学。 2013年，诺贝尔经济学奖同时颁给了这两个截然相反流派的代表：尤金·法玛（Eugene Fama）认为市场基本有效，价格已充分反映所有信息；罗伯特·席勒（Robert Shiller）则指出市场并非完全有效，投资者普遍受行为偏差影响。另一位里程碑学者是理查德·塞勒（Richard Thaler），他在《助推》一书中系统阐述了人类决策中的偏差，并在2017年获得诺贝尔奖。所以，行为金融学的核心假设是：人类在决策中存在系统性的偏差。在这里，“系统性”是关键——大家会朝同一方向偏，所以可被预测，也可被利用。 01 人类有哪些决策偏差？ AI也会有吗？在过去这五六年时间里，随着大语言模型的爆发式发展，我们每个人的手机里都多了一个随时待命的“智能大脑”。在做日常或重大决策时，我们越来越多地倾向于去问问身边的AI助手。那么，人类都有哪些决策偏差？在有了AI的辅助之后，这些固有的认知偏见是会变得更少，还是更多？偏差一：锚定效应（Anchoring Effect）这是丹尼尔·卡尼曼（Daniel Kahneman）的一个经典实验：先让参与者试看一个随机数字（10或65），再问他们联合国中非洲国家的比例。结果差异显著：看到10的人平均估计为25%，看到65的人平均估计为45%。其实，参与者心里都清楚，转盘上的数字是随机生成的，但这个毫无关联的数字依然在潜意识里充当了“锚”的角色，锁定了他们最终的预测结果。而在商业世界中，主播们最常用的话术“原价1000元，今天直播间100元就能带走”，用的就是这一招。在12个大语言模型的测试中：GPT和Gemini表现出明显的理性，几乎不会被锚定；Claude略受影响；而LLaMA则展现出与人类类似的锚定效应。所以，AI是否会被锚定，高度取决于模型的底层设计。偏差二：过度自信（Overconfidence）过度自信是人类常见的认知偏差之一。我们倾向于高估自己的知识储备、实际能力和判断的准确性。比如，让专业投资人对沪深300指数的波动区间给出90%置信预测，他们的预测区间往往很窄，自以为做出了一个有把握的预测，但实际命中率只有50%左右。这也解释了为什么主动型基金长期跑不赢指数。在同样的测试中：Claude几乎每次都能给出足够宽的区间，展现出“自知之明”；GPT表现居中；而Gemini等几乎在所有测试中都给出极窄区间，过度自信特征显著。偏差三：损失厌恶（Loss Aversion）如果我们要玩一个抛硬币的游戏：抛到正面赢120，反面输100，你玩不玩？大多数人会拒绝，因为尽管期望收益为正，但卡尼曼的研究显示，失去带来的痛苦大约是得到带来的快乐的2.25倍。 AI是否也具备这种情绪化的损失厌恶？实验结果表明，GPT表现得像一个纯理性的机器，只看预期值；Claude在2/3的情况下表现出明显的损失厌恶；而Gemini在100次决策中有88次表现出强烈的损失厌恶，它表现得比人类更像人类。偏差四：框架效应（Framing Effect）框架效应指的是：同样一件事，仅仅通过不同的语言表述方式，就会直接影响并改变人们的最终决策。这里有一个经典的决策实验：某种流行病暴发，预计会导致600人死亡，现在有两套应对方案供选择： “确定救活200人”vs“1/3概率全救，2/3概率全死”——72%的人选前者；但换成“确定死400人”vs“1/3概率没人死，2/3概率全死”——78%的人反而选后者。这两套方案在数学本质和实际结果上是完全等价的。但是，仅仅因为措辞是从“救人”还是“死亡”切入，决策结果就发生了明显的逆转。在测试中，几乎每一个大语言模型都比人类更容易受提问框架影响。这也从侧面解释了为什么这几年“提示词工程”会变得如此火爆。因为大模型在设计之初，就对人类的措辞和语境较为敏感。你用不同的口吻和视角向它提问，它给出的回答和决策倾向可能会大相径庭。偏差五：羊群效应（Herd Effect）人类有明显的从众本能。我们去餐厅吃饭，往往会选择排长队的那一家，因为“别人都在排队”暗示着这家店可能更好。研究显示，AI虽然没有朋友圈，但羊群效应可能更为剧烈——业内称之为“算法共振”。因为大多数AI的底层算法和训练数据高度相似，遇到突发事件时，它们会在短时间内得出几乎一致的结论，导致整个系统出现同方向的破坏性行动。手机导航就是例子：算法会把成百上千辆车同时引到同一条备选路上，结果，这条原本空旷的道路瞬间陷入了更严重的瘫痪。 02 更新后的AI模型，偏差会更小吗？一种很自然的乐观想法是：模型越升级，偏差会越小。为了验证这一假设，研究人员把决策偏差分为两类做了对比测试。第一类是统计推理类偏差（Belief-Based Tests）：主要涉及基础概率、贝叶斯更新等纯逻辑任务。好消息是，随着模型升级，这类偏差确实在明显变小。第二类是偏好类偏差（Preference-Based Tests）：涉及风险态度、情感反应、价值判断，比如损失厌恶、框架效应等。坏消息是，随着大模型的不断升级，这类偏差不仅没变小，反而变本加厉。为什么技术越先进，AI反而越不清醒？核心机制是“RLHF”（基于人类反馈的强化学习）：AI不断从人类反馈中学习。但人类历史文本与反馈本身就充斥着情绪、矛盾与偏见，大模型在向人类学习“如何说人话”的过程中，把人类骨子里的偏见也一并继承并放大了。此外还有“偏好崩塌”（Preference Collapse）现象，在微调算法的作用下，模型倾向于保留那些占多数的主流反馈，而忽视或过滤掉少数派的独特声音。 03 如何用好AI做决策？基于以上发现，在日常工作与投资决策中，应该如何正确地与AI打交道？对此，给大家提出四条操作建议。第一，不要把AI当成完全理性的顾问。无论各大模型公司如何宣称“我们的模型已经通过了奥林匹克数学竞赛，聪明绝顶”，也不等于它在日常决策中是安全无偏的。建议对任务进行严格分流：纯逻辑、纯数学的任务，AI比绝大多数人都强，可高度信任；涉及风险态度、价值取向、偏好权衡的决策，需要保持警惕，进行主观上的校准与审计。第二，巧妙将AI作为高效的“行为模拟器”。 AI能够较好地模拟并复现人类的各种偏差，这在商业管理和市场调研中具有重要的应用价值。现在，你可以利用大模型来模拟不同的消费群体，观察他们对特定宣传话术、价格变动和包装设计会产生怎样的行为偏好。作为营销和市场调研的“沙盘模拟器”，AI展现出了有用的价值。第三，警惕AI悄悄放大你自身的偏差。 AI在设计上具有一种“谄媚性”（Sycophancy）的特征。当你流露出某种倾向时，它会顺着你说“这是个英明的决定”。所以，在做重大决策时，应当引入交叉验证机制。同时去问几个底层架构和背景完全不同的模型，对比它们给出的不同反馈，多模型参考能让出错的概率明显降低。第四，在提示词中主动加入“理性决策框架”约束。既然AI对框架敏感，那我们就可以反向利用这一特征。在让AI提供决策建议时，不要直接向它要答案，而是在提示词中明确加入类似的要求：请使用经典的行为经济学框架，列出该决策可能存在的5种认知偏差，并以反方视角对我的决定进行严格的批判。通过这种机制设计，可以在较大程度上拉回AI的理智，让它提供更具参考价值的洞察。今天跟大家分享这些，并不是为了给大家制造焦虑，而是希望大家在未来的工作和生活中使用AI时，能多一分清醒，也多一分对技术弱点的敏锐洞察。本文来自微信公众号“中欧国际工商学院”（ID：CEIBS6688），作者：余方，编辑：张溪，36氪经授权发布。该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。