AI News Hub Logo

AI News Hub

Do you think AI is more rational than you? Actually, it's more biased than you are.

36Kr
余方

你以为AI比你理性?它其实比你更偏心中欧国际工商学院·2026年05月15日 11:54一份AI时代的清醒生存指南 人人都把“AI决策”挂在嘴边,默认它就是客观理性的化身。可它真的可信吗?中欧国际工商学院金融学教授余方在近期演讲中提到:AI并不完全理性,它会悄悄“继承”甚至“放大”人类的偏见。本文基于余方教授演讲整理。 今年以来,我每天起床都会感到一种隐隐的焦虑——AI正直接影响每一个人的工作

你以为AI比你理性?它其实比你更偏心中欧国际工商学院·2026年05月15日 11:54一份AI时代的清醒生存指南 人人都把“AI决策”挂在嘴边,默认它就是客观理性的化身。可它真的可信吗?中欧国际工商学院金融学教授余方在近期演讲中提到:AI并不完全理性,它会悄悄“继承”甚至“放大”人类的偏见。本文基于余方教授演讲整理。 今年以来,我每天起床都会感到一种隐隐的焦虑——AI正直接影响每一个人的工作。作为行为金融学的研究者,我想分享最近的观察:AI的崛起,会给我们的决策方式带来什么样的改变? 要理解这一问题,我们首先需要回顾一下行为金融学的思想起源。 现代经济学有两大对立学派:以理性人假设为根基的芝加哥学派,和强调市场失灵、需要政府干预的凯恩斯学派。延伸到金融领域,便分化成了有效市场理论与行为金融学。 2013年,诺贝尔经济学奖同时颁给了这两个截然相反流派的代表:尤金·法玛(Eugene Fama)认为市场基本有效,价格已充分反映所有信息;罗伯特·席勒(Robert Shiller)则指出市场并非完全有效,投资者普遍受行为偏差影响。另一位里程碑学者是理查德·塞勒(Richard Thaler),他在《助推》一书中系统阐述了人类决策中的偏差,并在2017年获得诺贝尔奖。 所以,行为金融学的核心假设是:人类在决策中存在系统性的偏差。在这里,“系统性”是关键——大家会朝同一方向偏,所以可被预测,也可被利用。 01 人类有哪些决策偏差? AI也会有吗? 在过去这五六年时间里,随着大语言模型的爆发式发展,我们每个人的手机里都多了一个随时待命的“智能大脑”。在做日常或重大决策时,我们越来越多地倾向于去问问身边的AI助手。那么,人类都有哪些决策偏差?在有了AI的辅助之后,这些固有的认知偏见是会变得更少,还是更多? 偏差一:锚定效应(Anchoring Effect) 这是丹尼尔·卡尼曼(Daniel Kahneman)的一个经典实验:先让参与者试看一个随机数字(10或65),再问他们联合国中非洲国家的比例。结果差异显著:看到10的人平均估计为25%,看到65的人平均估计为45%。其实,参与者心里都清楚,转盘上的数字是随机生成的,但这个毫无关联的数字依然在潜意识里充当了“锚”的角色,锁定了他们最终的预测结果。而在商业世界中,主播们最常用的话术“原价1000元,今天直播间100元就能带走”,用的就是这一招。 在12个大语言模型的测试中:GPT和Gemini表现出明显的理性,几乎不会被锚定;Claude略受影响;而LLaMA则展现出与人类类似的锚定效应。所以,AI是否会被锚定,高度取决于模型的底层设计。 偏差二:过度自信(Overconfidence) 过度自信是人类常见的认知偏差之一。我们倾向于高估自己的知识储备、实际能力和判断的准确性。比如,让专业投资人对沪深300指数的波动区间给出90%置信预测,他们的预测区间往往很窄,自以为做出了一个有把握的预测,但实际命中率只有50%左右。这也解释了为什么主动型基金长期跑不赢指数。 在同样的测试中:Claude几乎每次都能给出足够宽的区间,展现出“自知之明”;GPT表现居中;而Gemini等几乎在所有测试中都给出极窄区间,过度自信特征显著。 偏差三:损失厌恶(Loss Aversion) 如果我们要玩一个抛硬币的游戏:抛到正面赢120,反面输100,你玩不玩?大多数人会拒绝,因为尽管期望收益为正,但卡尼曼的研究显示,失去带来的痛苦大约是得到带来的快乐的2.25倍。 AI是否也具备这种情绪化的损失厌恶?实验结果表明,GPT表现得像一个纯理性的机器,只看预期值;Claude在2/3的情况下表现出明显的损失厌恶;而Gemini在100次决策中有88次表现出强烈的损失厌恶,它表现得比人类更像人类。 偏差四:框架效应(Framing Effect) 框架效应指的是:同样一件事,仅仅通过不同的语言表述方式,就会直接影响并改变人们的最终决策。这里有一个经典的决策实验:某种流行病暴发,预计会导致600人死亡,现在有两套应对方案供选择: “确定救活200人”vs“1/3概率全救,2/3概率全死”——72%的人选前者;但换成“确定死400人”vs“1/3概率没人死,2/3概率全死”——78%的人反而选后者。这两套方案在数学本质和实际结果上是完全等价的。但是,仅仅因为措辞是从“救人”还是“死亡”切入,决策结果就发生了明显的逆转。 在测试中,几乎每一个大语言模型都比人类更容易受提问框架影响。这也从侧面解释了为什么这几年“提示词工程”会变得如此火爆。因为大模型在设计之初,就对人类的措辞和语境较为敏感。你用不同的口吻和视角向它提问,它给出的回答和决策倾向可能会大相径庭。 偏差五:羊群效应(Herd Effect) 人类有明显的从众本能。我们去餐厅吃饭,往往会选择排长队的那一家,因为“别人都在排队”暗示着这家店可能更好。研究显示,AI虽然没有朋友圈,但羊群效应可能更为剧烈——业内称之为“算法共振”。因为大多数AI的底层算法和训练数据高度相似,遇到突发事件时,它们会在短时间内得出几乎一致的结论,导致整个系统出现同方向的破坏性行动。手机导航就是例子:算法会把成百上千辆车同时引到同一条备选路上,结果,这条原本空旷的道路瞬间陷入了更严重的瘫痪。 02 更新后的AI模型, 偏差会更小吗? 一种很自然的乐观想法是:模型越升级,偏差会越小。为了验证这一假设,研究人员把决策偏差分为两类做了对比测试。 第一类是统计推理类偏差(Belief-Based Tests):主要涉及基础概率、贝叶斯更新等纯逻辑任务。好消息是,随着模型升级,这类偏差确实在明显变小。 第二类是偏好类偏差(Preference-Based Tests):涉及风险态度、情感反应、价值判断,比如损失厌恶、框架效应等。坏消息是,随着大模型的不断升级,这类偏差不仅没变小,反而变本加厉。 为什么技术越先进,AI反而越不清醒?核心机制是“RLHF”(基于人类反馈的强化学习):AI不断从人类反馈中学习。但人类历史文本与反馈本身就充斥着情绪、矛盾与偏见,大模型在向人类学习“如何说人话”的过程中,把人类骨子里的偏见也一并继承并放大了。 此外还有“偏好崩塌”(Preference Collapse)现象,在微调算法的作用下,模型倾向于保留那些占多数的主流反馈,而忽视或过滤掉少数派的独特声音。 03 如何用好AI做决策? 基于以上发现,在日常工作与投资决策中,应该如何正确地与AI打交道?对此,给大家提出四条操作建议。 第一,不要把AI当成完全理性的顾问。 无论各大模型公司如何宣称“我们的模型已经通过了奥林匹克数学竞赛,聪明绝顶”,也不等于它在日常决策中是安全无偏的。建议对任务进行严格分流:纯逻辑、纯数学的任务,AI比绝大多数人都强,可高度信任;涉及风险态度、价值取向、偏好权衡的决策,需要保持警惕,进行主观上的校准与审计。 第二,巧妙将AI作为高效的“行为模拟器”。 AI能够较好地模拟并复现人类的各种偏差,这在商业管理和市场调研中具有重要的应用价值。现在,你可以利用大模型来模拟不同的消费群体,观察他们对特定宣传话术、价格变动和包装设计会产生怎样的行为偏好。作为营销和市场调研的“沙盘模拟器”,AI展现出了有用的价值。 第三,警惕AI悄悄放大你自身的偏差。 AI在设计上具有一种“谄媚性”(Sycophancy)的特征。当你流露出某种倾向时,它会顺着你说“这是个英明的决定”。所以,在做重大决策时,应当引入交叉验证机制。同时去问几个底层架构和背景完全不同的模型,对比它们给出的不同反馈,多模型参考能让出错的概率明显降低。 第四,在提示词中主动加入“理性决策框架”约束。 既然AI对框架敏感,那我们就可以反向利用这一特征。在让AI提供决策建议时,不要直接向它要答案,而是在提示词中明确加入类似的要求:请使用经典的行为经济学框架,列出该决策可能存在的5种认知偏差,并以反方视角对我的决定进行严格的批判。通过这种机制设计,可以在较大程度上拉回AI的理智,让它提供更具参考价值的洞察。 今天跟大家分享这些,并不是为了给大家制造焦虑,而是希望大家在未来的工作和生活中使用AI时,能多一分清醒,也多一分对技术弱点的敏锐洞察。 本文来自微信公众号“中欧国际工商学院”(ID:CEIBS6688),作者:余方,编辑:张溪,36氪经授权发布。 该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。