Alibaba and Tencent Play Their Cards on the Same Day, with HappyOyster and HY-World 2.0 Unveiling Two "Worlds"

阿里腾讯同日出牌，HappyOyster和HY-World 2.0打出两个“世界”新立场pro·2026年04月22日 20:58所谓场景护城河，是优势还是幻觉？ 2026年4月16日，腾讯和阿里在同一天各自发布了一款「世界模型」产品。前者是开源的混元3D世界模型2.0（HY-World 2.0），后者是主打实时交互的HappyOyster。这种巧合在科技行业并不罕见，竞争对手盯着彼此的发布节奏，谁也不想慢半拍。过去两年，围绕「世界模型」的讨论在学术界和产业界一直持续升温，但大多停留在预言和争论层面。真正把这个话题推向公众视野的，是Meta前首席AI科学家杨立昆（Yann LeCun）在2025年底MIT研讨会上的一番话。他说，“三到五年内，世界模型将取代LLM成为主流AI架构，没有理智正常的人还会用我们今天这种大语言模型”。这话在硅谷得罪了不少人，也让「世界模型」这个词真正进入了主流讨论。杨立昆的预言是否会成真，业界看法分歧极大。但有一件事正在发生：资本、人才和顶级实验室的注意力，都在向这个方向集中。李飞飞的World Labs已完成新一轮10亿美元融资，英伟达的Cosmos平台下载量突破500万次，杨立昆本人离开Meta创立AMI Labs，完成10.3亿美元种子轮融资。在国内，腾讯、阿里、生数科技、群核科技各自押注不同路线，中国玩家在这场竞争中的参与深度远超大多数外界观察者的预期。在此背景之下，本文试图回答三个问题：世界模型和大语言模型的本质边界在哪里？全球的技术格局是如何分化的？以及中国玩家在这条赛道上的真实处境是什么？三个问题互相咬合，分开看都不完整。大语言模型的盲区，以及世界模型从哪里开始 LLM的核心机制是在语言空间里找规律，给定前面的词，然后预测下一个词出现的概率。这个机制在大规模数据上训练之后，涌现出了令人惊讶的能力：写作、推理、编程、翻译。但这种能力的底层，始终是统计意义上的语言规律，而不是对物理世界的真实理解。LLM知道「玻璃杯掉到地上会碎」，是因为这个句子在训练数据里出现过无数次，并不是因为它理解了弹性模量、应力传导和冲击能量。对它来说，「重力」是一个频繁与特定语境共现的词语，却不是一个可以在新场景里推广应用的物理规律。这个区别在聊天、摘要、代码生成这类任务里无关紧要，LLM已经足够好用。但当AI需要和物理世界发生真实的交互，局限就变得清晰起来。让机器人规划一条从桌边绕过障碍物取到杯子的路径，需要理解三维空间、物体的形状和质量、动作的力度和方向；让自动驾驶系统预测前方车辆在下一秒的位置，需要理解速度、加速度和驾驶意图；让一个AI角色在游戏世界里做出合理的行为，需要理解场景的因果结构，而不只是像素的视觉一致性。这些任务，语言建模的框架从根本上就不适合处理。世界模型的出发点，正是填补这个空缺。简单说，世界模型预测的不是下一个词，而是下一个状态。物体在空间中的位置会怎么变化，一个动作会引发什么样的连锁反应，光线在不同材质表面的反射在视角移动后如何演变。它试图构建的是一个对物理现实的内部表征，让AI能够在这个表征上进行规划、预测和推断，而不只是在语言空间里进行模式匹配。打一个不那么精确但有助于理解的比方，LLM像一位读遍了旅游导览的图书管理员，他能告诉你北京任何一条街道胡同的名字和历史，但如果你把他放在那条街上，他未必知道往哪个方向走才能找到最近的地铁站。而世界模型则试图训练出一个真正在城市里行走过、对空间有具身感知的向导。这无关知识量的大小，而是知识性质的区别。然而，「世界模型」在当下又不是一个边界清晰的技术概念。不同团队在做的事情，差异远比名字所暗示的要大。有些团队做的是基于视频的交互式生成系统，核心是让模型学会「如果用户这样操作，画面接下来会怎么变」；有些团队做的是从图像或描述直接生成可编辑的三维几何资产，重点在于输出物的工程可用性；还有些团队做的是为机器人和自动驾驶提供物理仿真训练环境，重点在于数据的物理正确性。这三条路线的交集有限，背后的商业逻辑也截然不同。理解这一点，是看懂当前格局的前提。三条路线的技术分野与战略选择从技术路线来看，全球世界模型竞争目前大致沿三个方向展开，每条方向都有其内在逻辑，也有其固有的局限。第一条路线可以叫做「视频基世界模型」。这条路线的核心假设是视频是物理世界最丰富的记录，只要让模型足够深入地学习视频数据，它就能学会世界的运行规律。Google的Genie系列是这条路线的学术代表，Genie 3于2025年8月向部分研究人员开放实验性预览版本，用户输入文字描述，模型实时生成可交互的三维场景。李飞飞的World Labs推出的Marble，能够从文本或图片生成风格多样的可漫游虚拟世界。阿里巴巴ATH事业部的HappyOyster走的也是这条路，其差异化在于原生多模态架构与流式生成能力的结合。模型在生成过程中持续接收用户指令并实时响应，用户可以在已生成的场景里调整镜头、改写剧情、调度角色，而不是等待一段完整的视频渲染完成再看结果。目前HappyOyster支持连续三分钟以上的实时导演级交互，在体验层面是国内这条路线目前最成熟的产品。但这条路线有一个内置的局限，那就是基于视频学习的世界模型，生成的是像素意义上的一致性，而不一定是物理意义上的真实性。画面看起来连贯，不代表背后有真实的三维结构；光影看起来合理，也不代表模型真正理解了光的传播规律。 HappyOyster也在技术文档里承认，漫游模式和导演模式目前尚未完全打通，长时序场景中的一致性仍有待提升。这也是整条路线当前阶段共同面临的工程挑战。第二条路线是「3D资产化世界模型」，腾讯混元3D世界模型HY-World 2.0是这条路线目前最有代表性的产品。这条路线的关键转变是直接生成可编辑的三维几何资产，例如Mesh、3DGS、点云，这些文件格式可以无缝导入Unity和Unreal Engine等主流游戏引擎，进行二次编辑和物理交互。而腾讯押注这条路线，也有非常清晰的战略逻辑。腾讯拥有海量的3D游戏数据和成熟的引擎工程积累，游戏3D内容的生产效率是最直接的商业验证场景。传统上，一张开放世界地图的建模周期以月为单位，需要数十名美术人员参与；HY-World 2.0，生成一个可交互的3D游戏原型场景大约需要12分钟。这个数字即便打个折扣，对游戏行业的影响也是巨大的。不过，这条路线同样有其局限。3D资产生成解决的是内容生产效率问题，但它本质上仍然是一个生成模型，而不是一个真正理解物理规律的仿真系统。它能生成视觉上合理的3D场景，却不一定能保证物理意义上的正确性，比如碰撞检测、材质属性、动力学行为，这些在游戏引擎里还需要工程师介入校正。这个差距在游戏原型阶段尚可接受，但如果要迁移到机器人训练或数字孪生这类对物理精度要求极高的场景，距离就会被放大。因此，第三条路线则更接近基础设施层，可以叫做「空间数据与仿真平台」。这条路线不做终端产品，它主要提供高质量的三维训练数据、物理正确的仿真环境、连接虚拟和真实世界的工具链。国内这条线路最值得关注的案例是群核科技。这家家装设计软件公司，入局逻辑与腾讯、阿里完全不同，它是从十余年家装设计软件的数据积累里，发现了一条通向空间智能的路径。酷家乐平台上积累的4.8亿个三维模型和5亿个结构化空间场景，是物理正确的真实世界设计数据。群核科技在2025年英伟达GTC大会上开源的空间语言模型SpatialLM，仅凭一段手机拍摄的视频就能生成带有物理约束的三维场景布局，开源后登上HuggingFace趋势榜第二。其空间智能平台SpatialVerse已与智元机器人、银河通用、穹彻智能等具身智能公司建立合作，为机器人提供虚拟训练环境。 2026年4月17日，群核科技以「全球空间智能第一股」身份登陆港交所，上市首日股价高开171%。从上文三条路线的横向对比来看，中美的竞争格局呈现明显结构性的差异。美国的格局是：大平台公司（英伟达、Google）做通用基础设施和前沿研究，学术创业公司（World Labs、AMI Labs）做技术探索，中间的商业化产品层尚未出现成熟玩家——Meta和OpenAI在世界模型领域的实质性投入相对谨慎，前者尚在理论层表态，后者的重心仍在大语言模型的商业化上。中国的格局是头部大厂更倾向于从自身最强的垂直场景切入，同时有一批垂直数据公司在上游资产层卡位。两种格局的竞争逻辑不同，美国更强调技术原理的通用性，中国更强调场景落地的速度和数据资产的稀缺性。这种差异，在下一阶段的竞争中会以什么形式显现，目前还不明朗。 “造势”已经开始，但“造血”还不清晰如果把视线从宏观层面的路径比较下沉到产业微观运行时，会发现上述的差异正在中国本土衍生出一系列具体的、短期内难以回避的摩擦。中国玩家凭借场景与数据优势迅速入场，但也正因为入局太快，一些基础性的共识与规则尚未建立，导致赛道在热闹的表象之下暗藏着独特的系统性风险。这些问题业界鲜少正面讨论，但它们真实存在，并将影响这条赛道未来两三年的走向。第一个问题是定义的模糊性正在制造虚假的繁荣感。目前国内大量「世界模型」产品的发布，使用的是同一个词，指的却是差异极大的东西。有的本质是视频生成模型做了一层交互包装，有的是3D重建工具加了实时渲染能力，有的在做真正意义上的物理仿真。这种定义的混乱在资本层面会造成误判，用户层面会积累失望，在行业层面则会模糊技术进展和市场炒作之间的边界。如果要给「真正的世界模型」一个有操作意义的判断标准，《新立场》认为可以下这样一个定义：模型能否在没有显式标注的情况下，从原始感知数据里自主学习因果关系，并在从未见过的新场景里作出物理上可靠的预测。如果用这个标准衡量当前的大多数产品，距离还相当远。当然这不是说这些产品没有价值，而是把迭代进展等同于范式跃迁，是一种需要警惕的认知偷懒。第二个问题是数据壁垒的含金量被高估了。中国玩家确实拥有真实的数据优势，比如腾讯的游戏三维数据、群核的空间设计数据、各家自动驾驶公司的路测数据，这些在体量上是真实的护城河。但世界模型对数据的要求和大语言模型存在根本性的不同。LLM可以从海量但嘈杂的文本里学到有用的规律，数据的广度比精度更重要；世界模型需要的是物理正确、时序连贯、标注精准的三维数据，质量比数量更关键。现有的数据资产里能真正用于世界模型训练的比例，远低于对外宣称的规模。合成数据的争议进一步复杂化了这个问题：由于高质量真实三维数据的采集成本极高，很多团队转向用模拟器生成合成数据来补充训练集。 2024年《自然》杂志报道的研究趋势显示，持续使用合成数据训练模型，会导致模型性能随迭代轮次加速退化，这种现象研究者将其比作「近亲繁殖」。这个问题到今天还没有被普遍接受的解决方案，也意味着中国玩家的数据优势，比想象中更脆弱一些。第三个问题是老生常谈的，商业化路径是一道尚未解开的题。大语言模型在ChatGPT出现之后，商业模式逐渐清晰——API计费、企业订阅、垂直行业部署，链路已经跑通。而世界模型到今天为止，没有一家公司拿出过可复制的商业闭环。腾讯的HY-World 2.0目前主要作为开发者工具开源，群核科技2025年96.9%的营收来自软件订阅服务（主要为酷家乐和Coohom产品），而空间智能相关业务（包括SpatialVerse等）仅占3.1%，其中核心的SpatialVerse平台仅贡献0.6%的营收。游戏公司愿意为AI生成的3D场景付费，前提是生成质量能够真正替代或大幅缩减人工成本，目前看来差距尚存；影视行业的工作流整合周期比外界估计的要长得多；具身智能公司的采购规模尚未达到商业化所需的体量。世界模型目前更像是一张有巨大想象空间但兑现时间尚不确定的支票。这既是当前的困境，也是未来的机会。毫无疑问，未来第一个在某个垂直场景里验证出可复制商业单元的玩家，将会获得远远超出比例的先发优势。写在最后大语言模型的崛起，证明了当足够大规模地预测语言，涌现出来的能力会远远超出设计者的预期。这种「规模涌现」的逻辑是否能够迁移到物理世界的建模上，正是「世界模型」最核心的赌注。这在技术层面的挑战是真实的，物理世界的复杂度远高于语言空间。语言的基本单元是离散的词语，物理世界的状态是连续的、高维的，依赖于远比语法规则复杂的因果结构。数据的采集和标注成本比文本高出几个数量级，训练范式需要重新设计，评估方法也远不如NLP领域成熟。这条路比语言模型走过的路更长，更难，充满了未知的弯路。但驱动力同样是真实的，机器人、自动驾驶、数字孪生、沉浸式内容等领域对「真正理解物理世界的AI」有着真实的刚需，而这种需求随着智能硬件的普及只会越来越强。而中国在这场竞争里的优势和劣势都很具体：场景数据的积累和垂直行业的落地压力是有力的支撑，基础研究的深度和商业验证的路径是真实的短板。腾讯和阿里在同一天发布世界模型产品，说明在中国最头部的科技公司内部，对AI下一个主战场的判断已经形成了共识。至于这种共识是否正确，要等时间来验证。这可能比我们想象得更近，也比我们期望得更远。本文来自微信公众号“新立场Pro”，作者：新立场，36氪经授权发布。该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。