AI News Hub Logo

AI News Hub

With the entry point in hand and tokens at my disposal, Doubao Qianwen positions itself as the "power button" for Agents.

36Kr
新立场

入口在手,Token我有,豆包千问卡位Agent“开机键”新立场pro·2026年04月21日 21:23豆包近水楼台,千问顺水推舟 “工具在使用者手中时才成为工具。”海德格尔的这段话,今天用来理解AI硬件同样贴切。 问题在于,大模型这只“手”伸出来的时候,用户究竟愿意把它握在掌心里(手机),还是架在鼻梁上(眼镜),亦或是让它一直贴耳倾听(耳机)? 据《Z Finance》独家报道,字节跳动内部

入口在手,Token我有,豆包千问卡位Agent“开机键”新立场pro·2026年04月21日 21:23豆包近水楼台,千问顺水推舟 “工具在使用者手中时才成为工具。”海德格尔的这段话,今天用来理解AI硬件同样贴切。 问题在于,大模型这只“手”伸出来的时候,用户究竟愿意把它握在掌心里(手机),还是架在鼻梁上(眼镜),亦或是让它一直贴耳倾听(耳机)? 据《Z Finance》独家报道,字节跳动内部决定暂停豆包AI眼镜项目。想要理解这场选择,需要先回答一个更基础的问题:大模型公司为什么要做硬件? 据《晚点LatePost》的报道,火山引擎豆包大模型日均调用量已超过120万亿Token,半年增长4倍。国家数据局的数据显示,中国日均Token消耗量在一年半内增长约300倍。黄仁勋在GTC 2026的舞台上说,Token将是未来数字世界最核心的大宗商品。 但Token消耗的暴涨,反而掩盖了一个更根本的问题,即这些Token从哪里被触发,通过什么界面进入用户的生活? 过去两年,这个问题的答案是手机屏幕和对话框。OpenClaw的爆火将Agent从开发者工具推向大众用户,直接推高了对“随时随地触发AI执行”这一能力的需求密度。当大模型的竞争从生成式问答转向执行任务,执行链路就需要一个更靠近用户身体的物理锚点。 豆包选择的落点是操作系统,以“操作系统级合作”模式切入AI手机赛道,通过与手机厂商在系统层面合作,获得识别屏幕UI元素、模拟人工操作的核心权限;千问选择的是眼镜,千问AI眼镜上线首批“AI办事”能力后,支持话费充值、扫码骑车、停车缴费、语音点外卖。这些功能的共同特征是,AI开始在真实世界里把事情做完。 两条路径的本质,是两家公司对同一个问题给出的不同工程答案:究竟改由谁来做Agent执行链路的物理接口。 两种优势的两种延伸 大模型公司做硬件,实际上是在回答一个从Token经济学中衍生出来的问题。 过去两年的AI竞争,核心战场在模型能力和价格。价格战把Token单价从三年前的高点压低了约300倍。但单价的崩塌没有让AI支出变得可预测,原因很简单:Agent类应用让单次任务的Token消耗从普通对话的几十倍起跳。据腾讯科技报道,亚太区电商技术公司Branch8的6人团队,启用Claude Code第一个月花了2400美元,经过八周密集优化才勉强降到680美元。Token支出管理本身已经变成了一项需要专门技能的工作。 这个成本结构,在源头上改写了很多AI产品的竞争逻辑。谁掌握了Agent的触发入口,谁就掌握了Token消耗的源头。而触发入口的密度,取决于设备离用户有多近、启动摩擦力有多低。这是豆包和千问同时转向硬件的真实驱动力:在Token消耗链路的最前端建立一个物理节点。 千问AI眼镜的团队跟踪了一个指标——用户交互轮次,即AI帮助用户完成事项的频率。夸克眼镜S1上线后,用户交互数对比第三方手机AI助手应用提升了约6倍。戴在脸上的AI之所以被调用得更频繁,原因在于感知始终在线、启动摩擦力趋近于零。 对于Agent而言,这种持续在场的交互密度,意味着更丰富的上下文积累,也意味着更多执行任务的触发机会。 2026年4月,千问AI眼镜首次OTA升级后上线了“AI办事”能力,通过接入淘宝闪购、支付宝,支持话费充值、扫码骑车、停车缴费、语音点外卖。产品定义由此发生转移:AI从回答问题,变成了把事情办完。 豆包确定的路径同样深入,只是方向不同。去年12月,豆包AI手机助手以“操作系统级合作”模式进入AI手机赛道,通过与手机厂商在系统层面合作,获得识别屏幕UI元素、模拟人工操作的核心权限。 实测显示,“比价肯德基套餐并下单发送截图”这一涉及三个应用、十二步手动操作的任务,豆包可在后台自动完成,仅支付环节需人工介入,全程耗时较人工操作缩短72%。 目前,Agent在大众用户中真正形成使用习惯还需要一段时间。豆包和千问现在的硬件投入,是在为一个尚未到来的需求峰值提前卡位。这是典型的平台逻辑:先占住感知节点,等Agent成熟之后,数据流和调用量自然会从这个节点涌入。 但平台逻辑有一个前提,设备必须在需求到来之前就已经在用户身上。这也解释了为什么千问要在眼镜之外再布局指环和耳机,毕竟单一形态覆盖不了全天候的感知需求,矩阵才能。 豆包与千问的硬件路径,都是从自身核心优势出发延伸的结果,只是各自优势所对应的最优形态不同。 豆包AI眼镜的项目暂停,内部给出的核心判断也很合理,大框、拍摄、语音、翻译,主流范式已被Ray-Ban Meta统一。2025年,Meta智能眼镜全年销量超过700万副,全球市场份额达85.2%。在这个格局下,“能不能做”早已不是问题。 千问的选择,出发点同样清晰。阿里的应用生态中,话费充值、外卖点单、停车缴费,这些淘宝、支付宝的既有能力可以直接接入Agent执行链路,通过眼镜重新封装成AI原生交互形态。对于没有这套生态底座的公司,眼镜只是一个戴在脸上的语音助手;对阿里来说,眼镜是打通已有应用、建立新型触点的现实节点。 豆包深入手机操作系统,是在自己的流量分发能力地带建立Agent入口。千问押注可穿戴设备矩阵,是在把阿里的应用生态重新封装成AI原生交互形态。 把时间线拉长来看,今天产品发得多惊艳、销量跑得多猛,其实都决定不了终局。两年后,当Agent像网络一样融进工作流,唯一的护城河只有一条:用户习惯了从哪个入口触发它。 端侧推理如何改变成本结构 硬件入口的竞争,最终会回到一个更基础的问题上:Token从哪里来,到哪里去,谁来付账。 Token的价格是透明的,但Token里装了多少“智力”,用户无从得知。4月,AMD AI战略总监Stella Laurenzo基于6852个Claude Code会话的分析显示,从今年2月下旬开始,Claude Opus 4.6的推理深度大幅下降,腾讯科技也报道,“每次代码编辑前的文件阅读次数”从6.6骤降至2.0,降幅约70%。 这些改变没有在任何显著位置通知用户,大量开发者是在代码质量明显下降之后才开始怀疑“模型是不是变笨了”。 更隐蔽的是缓存命中率对实际成本的影响。一位开发者对Claude Code一周数据的追踪显示,正常情况下91%的Token来自缓存命中,缓存命中价格只有标准输入价格的十分之一。如果缓存全部失效,Input成本会暴涨到原来的5.7倍。 这个成本结构,是端侧模型价值主张的核心依据之一。端侧推理一次性部署后,边际成本趋近于零,没有缓存命中率的不确定性,也没有云端峰值定价的波动。对于频繁触发Agent任务的硬件设备,这个优势会随使用密度的增加而持续放大。 谷歌DeepMind 4月发布的Gemma 4,重新划定了端侧模型的能力边界。其E2B和E4B模型推理时激活的有效参数量分别仅为20亿和40亿,在LiteRT-LM框架下,可在3秒内处理跨越两个独立技能的4000个输入Token;E2B与E4B原生支持函数调用,覆盖Agent工作流所需的核心推理路径。上下文窗口达128K Token,在不足1.5GB的内存占用下可以完成运行。 这意味着一个可以调用外部工具、执行多步骤规划的端侧Agent,其硬件门槛已降至现代中端手机的内存余量之内。 千问目前采用的云端大模型加本地轻量智能体的混合架构,是在当前端侧算力约束下的一个不错的解。据36氪报道,千问在2026年规划的硬件形态除AI眼镜还包括AI指环、AI耳机,三种形态覆盖视觉交互、无感佩戴和音频交互三个不同维度,形成全天候的感知矩阵。 这个矩阵的核心价值在于眼镜捕获第一视角的行为数据流,这些数据反哺千问大模型迭代,模型能力提升后又优化硬件体验,形成闭环。 但Gemma 4这类模型的出现,正在缩短这个“当前”的有效期。当端侧模型可以在本地独立完成越来越多的Agent任务,云端兜底的必要性在高频轻量场景中会持续下降,Token的消耗路径也会随之改变。 这会对当前AI硬件的主流云端模式,其一,端侧能力的提升会降低硬件设备对云端的依赖,让设备端AI从成本结构上更具竞争力;其二,当用户的Agent任务越来越多地在本地完成,依赖数据回流云端来驱动模型迭代的商业闭环,也需要重新设计数据获取路径。  有多少增量留在云端、有多少转移至本地,将成为整个MaaS商业模式需要提前应对的结构性问题。 写在最后 当Token消耗从对话层迁移到执行层,Agent开始代替人操作应用,这些任务是在云端计费还是在端侧本地完成?这个问题的答案,会决定Token的消耗结构,进而影响MaaS业务的收入模型。 火山引擎超百亿元的MaaS业务收入目标已随着Seed 2.0、Seedance 2.0等模型发布、OpenClaw爆火上调被提高。阿里成立了ATH事业群,两家公司在云端的Token战争和在硬件端的入口争夺,是同一场竞争的两个战场。谁能在硬件侧建立足够高频的Agent使用习惯,谁就在云端MaaS的下一轮增长中占据了需求端的主动权。 2026年的AI硬件竞争,表面上看是眼镜和手机的形态之争,实质上是对Agent时代Token消耗入口的提前卡位。这场竞争没有快速的结论,因为Agent在大众用户中的真实使用习惯还在形成,端侧模型的能力边界还在被Gemma 4这类模型持续推进,云端Token的成本结构还在被缓存命中率、推理深度和定价策略悄悄改变。 《新立场》认为,决定胜负的是谁拥有足够密度和足够高频的应用场景,能让Agent在真实使用中持续积累上下文、优化执行能力,形成对用户的理解深度。 这个变量,更多由生态底座决定。千问和豆包的硬件分歧,是两个不同生态底座在同一个技术拐点上做出的不同押注,各自都在最擅长的地方寻找答案。 本文来自微信公众号“新立场Pro”,作者:新立场,36氪经授权发布。 该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。