With the entry point in hand and tokens at my disposal, Doubao Qianwen positions itself as the "power button" for Agents.

入口在手，Token我有，豆包千问卡位Agent“开机键”新立场pro·2026年04月21日 21:23豆包近水楼台，千问顺水推舟 “工具在使用者手中时才成为工具。”海德格尔的这段话，今天用来理解AI硬件同样贴切。问题在于，大模型这只“手”伸出来的时候，用户究竟愿意把它握在掌心里（手机），还是架在鼻梁上（眼镜），亦或是让它一直贴耳倾听（耳机）？据《Z Finance》独家报道，字节跳动内部决定暂停豆包AI眼镜项目。想要理解这场选择，需要先回答一个更基础的问题：大模型公司为什么要做硬件？据《晚点LatePost》的报道，火山引擎豆包大模型日均调用量已超过120万亿Token，半年增长4倍。国家数据局的数据显示，中国日均Token消耗量在一年半内增长约300倍。黄仁勋在GTC 2026的舞台上说，Token将是未来数字世界最核心的大宗商品。但Token消耗的暴涨，反而掩盖了一个更根本的问题，即这些Token从哪里被触发，通过什么界面进入用户的生活？过去两年，这个问题的答案是手机屏幕和对话框。OpenClaw的爆火将Agent从开发者工具推向大众用户，直接推高了对“随时随地触发AI执行”这一能力的需求密度。当大模型的竞争从生成式问答转向执行任务，执行链路就需要一个更靠近用户身体的物理锚点。豆包选择的落点是操作系统，以“操作系统级合作”模式切入AI手机赛道，通过与手机厂商在系统层面合作，获得识别屏幕UI元素、模拟人工操作的核心权限；千问选择的是眼镜，千问AI眼镜上线首批“AI办事”能力后，支持话费充值、扫码骑车、停车缴费、语音点外卖。这些功能的共同特征是，AI开始在真实世界里把事情做完。两条路径的本质，是两家公司对同一个问题给出的不同工程答案：究竟改由谁来做Agent执行链路的物理接口。两种优势的两种延伸大模型公司做硬件，实际上是在回答一个从Token经济学中衍生出来的问题。过去两年的AI竞争，核心战场在模型能力和价格。价格战把Token单价从三年前的高点压低了约300倍。但单价的崩塌没有让AI支出变得可预测，原因很简单：Agent类应用让单次任务的Token消耗从普通对话的几十倍起跳。据腾讯科技报道，亚太区电商技术公司Branch8的6人团队，启用Claude Code第一个月花了2400美元，经过八周密集优化才勉强降到680美元。Token支出管理本身已经变成了一项需要专门技能的工作。这个成本结构，在源头上改写了很多AI产品的竞争逻辑。谁掌握了Agent的触发入口，谁就掌握了Token消耗的源头。而触发入口的密度，取决于设备离用户有多近、启动摩擦力有多低。这是豆包和千问同时转向硬件的真实驱动力：在Token消耗链路的最前端建立一个物理节点。千问AI眼镜的团队跟踪了一个指标——用户交互轮次，即AI帮助用户完成事项的频率。夸克眼镜S1上线后，用户交互数对比第三方手机AI助手应用提升了约6倍。戴在脸上的AI之所以被调用得更频繁，原因在于感知始终在线、启动摩擦力趋近于零。对于Agent而言，这种持续在场的交互密度，意味着更丰富的上下文积累，也意味着更多执行任务的触发机会。 2026年4月，千问AI眼镜首次OTA升级后上线了“AI办事”能力，通过接入淘宝闪购、支付宝，支持话费充值、扫码骑车、停车缴费、语音点外卖。产品定义由此发生转移：AI从回答问题，变成了把事情办完。豆包确定的路径同样深入，只是方向不同。去年12月，豆包AI手机助手以“操作系统级合作”模式进入AI手机赛道，通过与手机厂商在系统层面合作，获得识别屏幕UI元素、模拟人工操作的核心权限。实测显示，“比价肯德基套餐并下单发送截图”这一涉及三个应用、十二步手动操作的任务，豆包可在后台自动完成，仅支付环节需人工介入，全程耗时较人工操作缩短72%。目前，Agent在大众用户中真正形成使用习惯还需要一段时间。豆包和千问现在的硬件投入，是在为一个尚未到来的需求峰值提前卡位。这是典型的平台逻辑：先占住感知节点，等Agent成熟之后，数据流和调用量自然会从这个节点涌入。但平台逻辑有一个前提，设备必须在需求到来之前就已经在用户身上。这也解释了为什么千问要在眼镜之外再布局指环和耳机，毕竟单一形态覆盖不了全天候的感知需求，矩阵才能。豆包与千问的硬件路径，都是从自身核心优势出发延伸的结果，只是各自优势所对应的最优形态不同。豆包AI眼镜的项目暂停，内部给出的核心判断也很合理，大框、拍摄、语音、翻译，主流范式已被Ray-Ban Meta统一。2025年，Meta智能眼镜全年销量超过700万副，全球市场份额达85.2%。在这个格局下，“能不能做”早已不是问题。千问的选择，出发点同样清晰。阿里的应用生态中，话费充值、外卖点单、停车缴费，这些淘宝、支付宝的既有能力可以直接接入Agent执行链路，通过眼镜重新封装成AI原生交互形态。对于没有这套生态底座的公司，眼镜只是一个戴在脸上的语音助手；对阿里来说，眼镜是打通已有应用、建立新型触点的现实节点。豆包深入手机操作系统，是在自己的流量分发能力地带建立Agent入口。千问押注可穿戴设备矩阵，是在把阿里的应用生态重新封装成AI原生交互形态。把时间线拉长来看，今天产品发得多惊艳、销量跑得多猛，其实都决定不了终局。两年后，当Agent像网络一样融进工作流，唯一的护城河只有一条：用户习惯了从哪个入口触发它。端侧推理如何改变成本结构硬件入口的竞争，最终会回到一个更基础的问题上：Token从哪里来，到哪里去，谁来付账。 Token的价格是透明的，但Token里装了多少“智力”，用户无从得知。4月，AMD AI战略总监Stella Laurenzo基于6852个Claude Code会话的分析显示，从今年2月下旬开始，Claude Opus 4.6的推理深度大幅下降，腾讯科技也报道，“每次代码编辑前的文件阅读次数”从6.6骤降至2.0，降幅约70%。这些改变没有在任何显著位置通知用户，大量开发者是在代码质量明显下降之后才开始怀疑“模型是不是变笨了”。更隐蔽的是缓存命中率对实际成本的影响。一位开发者对Claude Code一周数据的追踪显示，正常情况下91%的Token来自缓存命中，缓存命中价格只有标准输入价格的十分之一。如果缓存全部失效，Input成本会暴涨到原来的5.7倍。这个成本结构，是端侧模型价值主张的核心依据之一。端侧推理一次性部署后，边际成本趋近于零，没有缓存命中率的不确定性，也没有云端峰值定价的波动。对于频繁触发Agent任务的硬件设备，这个优势会随使用密度的增加而持续放大。谷歌DeepMind 4月发布的Gemma 4，重新划定了端侧模型的能力边界。其E2B和E4B模型推理时激活的有效参数量分别仅为20亿和40亿，在LiteRT-LM框架下，可在3秒内处理跨越两个独立技能的4000个输入Token；E2B与E4B原生支持函数调用，覆盖Agent工作流所需的核心推理路径。上下文窗口达128K Token，在不足1.5GB的内存占用下可以完成运行。这意味着一个可以调用外部工具、执行多步骤规划的端侧Agent，其硬件门槛已降至现代中端手机的内存余量之内。千问目前采用的云端大模型加本地轻量智能体的混合架构，是在当前端侧算力约束下的一个不错的解。据36氪报道，千问在2026年规划的硬件形态除AI眼镜还包括AI指环、AI耳机，三种形态覆盖视觉交互、无感佩戴和音频交互三个不同维度，形成全天候的感知矩阵。这个矩阵的核心价值在于眼镜捕获第一视角的行为数据流，这些数据反哺千问大模型迭代，模型能力提升后又优化硬件体验，形成闭环。但Gemma 4这类模型的出现，正在缩短这个“当前”的有效期。当端侧模型可以在本地独立完成越来越多的Agent任务，云端兜底的必要性在高频轻量场景中会持续下降，Token的消耗路径也会随之改变。这会对当前AI硬件的主流云端模式，其一，端侧能力的提升会降低硬件设备对云端的依赖，让设备端AI从成本结构上更具竞争力；其二，当用户的Agent任务越来越多地在本地完成，依赖数据回流云端来驱动模型迭代的商业闭环，也需要重新设计数据获取路径。有多少增量留在云端、有多少转移至本地，将成为整个MaaS商业模式需要提前应对的结构性问题。写在最后当Token消耗从对话层迁移到执行层，Agent开始代替人操作应用，这些任务是在云端计费还是在端侧本地完成？这个问题的答案，会决定Token的消耗结构，进而影响MaaS业务的收入模型。火山引擎超百亿元的MaaS业务收入目标已随着Seed 2.0、Seedance 2.0等模型发布、OpenClaw爆火上调被提高。阿里成立了ATH事业群，两家公司在云端的Token战争和在硬件端的入口争夺，是同一场竞争的两个战场。谁能在硬件侧建立足够高频的Agent使用习惯，谁就在云端MaaS的下一轮增长中占据了需求端的主动权。 2026年的AI硬件竞争，表面上看是眼镜和手机的形态之争，实质上是对Agent时代Token消耗入口的提前卡位。这场竞争没有快速的结论，因为Agent在大众用户中的真实使用习惯还在形成，端侧模型的能力边界还在被Gemma 4这类模型持续推进，云端Token的成本结构还在被缓存命中率、推理深度和定价策略悄悄改变。《新立场》认为，决定胜负的是谁拥有足够密度和足够高频的应用场景，能让Agent在真实使用中持续积累上下文、优化执行能力，形成对用户的理解深度。这个变量，更多由生态底座决定。千问和豆包的硬件分歧，是两个不同生态底座在同一个技术拐点上做出的不同押注，各自都在最擅长的地方寻找答案。本文来自微信公众号“新立场Pro”，作者：新立场，36氪经授权发布。该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。