Daily wage of 120 yuan, nationwide data collection—who is training the next robot nanny?
36Kr
36氪的朋友们
日薪120元,全民数采,谁在训练下一个机器人保姆?36氪的朋友们·2026年05月15日 18:21一种新的数字零工,两条具身大脑的训练路线。 具身智能行业今年最重要的关键词,是数据。 这个词不仅仅出现在学术期刊最新的论文中,出现在科技公司对外宣讲的PPT中,还出现在湖北某市的零工招聘信息中,出现在陕西某村镇的一场小规模培训中。 所谓的数据,是指如何叠衣服、如何浇花、如何做饭……等等,在人类世界
日薪120元,全民数采,谁在训练下一个机器人保姆?36氪的朋友们·2026年05月15日 18:21一种新的数字零工,两条具身大脑的训练路线。
具身智能行业今年最重要的关键词,是数据。
这个词不仅仅出现在学术期刊最新的论文中,出现在科技公司对外宣讲的PPT中,还出现在湖北某市的零工招聘信息中,出现在陕西某村镇的一场小规模培训中。
所谓的数据,是指如何叠衣服、如何浇花、如何做饭……等等,在人类世界中真实发生的一切信息。从这个层面来讲,每一个具备行动能力的普通人,都是机器人的老师。
模型在迭代,算法在进步,看似最前沿的科技,实际上已经扩散为一项全民可参与的大型实验。这场实验中不仅角色众多——机器人厂商、数据厂商、人力公司、灵活就业人员,而且变化迅速,昂贵的拍摄设备这个月刚刚发放,下个月就被手机替换了。
亿邦AI深度调研了当下具身智能数据采集的现状,既期待与技术脉搏同频,也期待看到普通人分享行业红利。
本文约8000字,分五部分,为了方便您的阅读,以下是概要总结:
1. 日薪120元,全民数采潮来了
全国各地大规模招聘众包数采员,在家庭或者户外使用设备录制视频。
2. 数据!数据!数据!
具身智能行业数据饥渴,无本体采集自2026年3月起全面爆发。
3. 采集设备的“战国时代”
数采设备历经了三次迭代,人类第一视角视频拍摄最受关注。
4. 毛利100%的生意
数据采集的生意毛利高,但是众包形式也面临很多问题。
5. 技术转向:VLA还是世界模型?
数采众包热潮的背后是算法路线的更迭和资本的推动。
日薪120元,全民数采潮来了
“我要开始叠T恤了。”河北人张月头上带着一个电子头环,卡着自己的苹果手机,手上举着两个特制夹爪,站在卧室床前,很有仪式感地对着空气介绍工作。
叠衣服这种事儿,平时信手拈来,但夹爪不容易控制角度,边角总不平整,需反复尝试。叠了四五件,她开始感到手掌有些酸胀。
叠完床上的衣服,手机里有声音提示她换场景。这一天,张月在卧室、书房、客厅、桌子上、床上、地上、窗台边、开灯、自然光等不同场景叠衣服,手机还会提醒她叠不同款式不同颜色的衣服,不能拿着一件衣服反复叠。
具身智能数采助手App
张月在做的事情是具身智能数据采集。也就是说,她叠衣服的动作,通过手机摄像头和夹爪采集为数据,经标注处理之后,会成为机器人训练的素材,直到有一天机器人也学会叠衣服。
2026年,全国人民的目光被会武术、会跑步的机器人吸引,但是会干活对机器人来说仍然是难题,而学会干活,最大的坎是数据,那么数据从哪儿来?革命法宝,发动群众。
30岁出头的张月是一名全职妈妈,平时接一些零工补贴家用。3月,她从熟悉的兼职群得到了这份具身数据采集的工作:居家,每小时30元。报名之后,她参加了为期半天的培训,内容包括下载采集软件(一个自有App,无法上架App Store,只能现场安装、注册,后台开通权限)、学习使用夹爪、按要求拍摄视频,自己练习半小时就可以带着设备回家了。
采集软件里会发布各类任务,包括清洁类(扫地、拖地、擦窗、洗碗、清洁桌面/卫浴)、衣物处理(折叠、晾晒、收纳、熨烫)、物品整理(摆放物品、分类归纳、取放货物、整理书架、收拾桌面、货架整理)、烹饪(洗菜、切菜、餐后收拾、使用厨具、做饮品、烹饪)、日常照护(开关门窗、传递物品、倒垃圾、浇花、宠物护理)等。随后又新增家居装饰、搭积木、刺绣、折纸等手工艺品。
张月每天领取任务,寻找合适的拍摄场景,打开App,一边录像,一边使用夹爪做家务。按照要求,她每天拍摄不少于8小时,每段视频不少于2分钟,拍摄完成后批量上传。8小时中有效时长不到一半,按照每小时30元计算,她一天的收入大约120元。
湖北人阿信记得,最早2025年11月,兼职群里开始零星出现具身智能数采的招聘信息,而到2026年3月份,数采员招聘信息井喷,有的要求到集中场地遥控操作机器人,薪资180-250元/天,有的使用可穿戴设备(头环、夹爪等),可以居家工作,薪资120元/天+绩效。
从今年3月开始,数采商通过人力外包公司在全国各地大规模招聘众包数采员。对于还没搞懂机器人是怎么回事的普通人来说,数据采集是一个门槛低又充满新鲜感的工作,在低线城市,120元的日薪也还不错。
有人说,数采招聘人员3月份到村里组织了培训,她按照要求拍了半小时视频提交,但是后来因为村里参与者太少,驻村的招聘人员带着夹爪设备离开了;也有人说,培训参加过了,却因为夹爪数量不够用而无法参与采集;还有人在网上呼吁给自己退休在家的妈妈一个参与前沿行业的机会。
一家人力外包公司HR美美告诉亿邦AI,公司目前规划两期数采项目,一期以家居场景为主,二期名为“世界交互”,以户外公共场合日常行为为主,包括骑行、散步、公园锻炼、购物、逛街、取快递、丢垃圾、遛狗等。“理论上所有户外运动都可以录制 ,但为了避免镜头抖动,不建议拍摄剧烈运动或对抗性运动。”美美提示。
录制要求是打开声音录制,需录入环境音,至少每3分钟和环境交互一次,偶尔可以有他人入镜,但尽量避免长时间拍摄他人,因为后期脱敏会很麻烦。
北京一家肯德基店员正在用夹爪,一边擦桌子一边采集数据
海外的数采也同样热闹:Micro1、Scale AI等公司已经在全球招募零工人员录制家务劳动视频,肯尼亚、菲律宾、印度等国的工人佩戴头戴摄像头;DoorDash在3月推出Tasks应用,让旗下送餐员顺带录制家务视频。
一场轰轰烈烈的全民数采潮拉开帷幕。
数据!数据!数据!
全民数据采集,来自于当下具身智能行业的数据饥渴。
“大的需求方都是你有多少我就买多少,你什么时候有我马上要的状态。”智元机器人合伙人、觅蜂科技董事长兼 CEO姚卯青如是说。具身智能大脑公司、具身智能本体厂商、多模态大模型与世界模型公司,都需要数据。目前市场可采购的数据集,大约几十万小时,高质量的数据严重供不应求。
主流观点认为,训练泛化能力的具身大模型至少需要1000万小时的数据,而达到智能涌现则需要100亿小时的数据。就像一个人类婴儿,从呱呱坠地到会走路、会说话、会穿衣吃饭、会做家务,真实的环境中观察、模仿、反复练习,是习得技能的必经之路,机器人要想达到大众设想中的、在家里像保姆一样洗衣做饭打扫,同样绕不开这个过程。
自动驾驶同样经历了数据从无到有、从少到多的过程,第一代自动驾驶数据集nuScenes获取了经过人工标注的1000个场景,但总时长仅有5.5小时;以特斯拉为代表的车企,则通过已销售的量产车来采集数据,这种成本更低、产量更大的方式,让特斯拉智能辅助驾驶积累了约100亿公里的行驶数据。但这个过程也用了将近10年。
显然,与自动驾驶相比,具身智能的数据积累才刚刚起步。数据堂首席运营官何鸿凌告诉亿邦AI,具身智能与自动驾驶的训练方式是类似的,但难点在于,车可以先卖出去再积累数据、迭代算法、更新智驾能力,“具身智能不存在这个逻辑,我不可能买一个什么也不会做的机器人回去,我还需要遥操它来做。”
何鸿凌表示,就他了解到的数据需求情况看,家庭场景占80%,商超占10%,工厂占10%。原因不难理解,家务、照护、养老等长期存在的需求亟待技术进步提供新的方案,而家庭场景中任务的复杂性、多样性以及相应的隐私安全问题,要求机器人经过更多的学习训练。至于商超场景,目前人力成本尚可接受,短期内不具备强替代动力;而工厂已有成熟自动化方案,且任务相对标准,对具身智能数据的需求并不大。
这是一个先有鸡还是先有蛋的问题:数据的积累需要机器人大规模进入家庭,而机器人达到可用程度依赖足够的家庭场景数据训练。
行业认可的具身智能数据可以大致分为三层:底层是互联网视频以及仿真合成数据;中间层是无本体数据,由数采员使用穿戴式设备,执行特定任务动作获得;最顶层是真机数据,即工作人员遥控操作机器人获得。这个数据金字塔从下到上,质量更好、数量更少、成本更高。
今年之前,在集中的数据采集厂里,使用各品牌的机器人本体重复各类工作任务,是主流的数据采集方式。国内已有20多个城市建立了数采厂。但是从2026年3月开始,无本体的具身智能数据采集,以野火燎原之势全面爆发。
蚂蚁数科天玑实验室副主任朱凯表示,已有研究验证过,具身智能训练数据的多样性存在一个优先级序:任务多样性 > 操作物品多样性 > 场景多样性。
“我们在具身前沿模型的数据需求侧看到了一个共性趋势:海量数据需求正在朝无本体数据——也就是ego/UMI 数据——集中。通用具身模型对训练数据的配比正在朝‘90% ego+10% 真机’演变,部分更激进的团队甚至在探索‘99% ego+1% 真机’的极端配比。”朱凯直言,“这意味着数据侧的节奏决定模型侧的突破节点,而ego数据的规模化供给能力,将直接决定GPT-3时刻到来的快慢。那么问题变成了:谁能以百万乃至千万小时的规模持续供给高质量ego数据?”
采集设备的“战国时代”
过去两年,机器人数采设备历经了三次迭代:从最初的“真机遥操”——即人通过VR、手套等设备,操控某一款真机机器人,让它学习任务;到UMI(通用操作接口,Universal Manipulation Interface)——用通用夹爪配合GoPro等相机,让采集人员在真实场景中反复、缓慢操作,记录任务行动轨迹;再到近两个月爆发的“第一人称人类视频(Ego Centric)”,只需要通过手机或相机,记录双手的日常操作,就能用来训练机器人大脑。
每一次迭代都朝着成本更低、门槛更低、采集更方便的方向,因此也让参与者从专业人员向普通大众扩散。
UMI路线是从2025年底开始的,海外具身智能厂商通过UMI数采先后训练出了Generalist的GEN-0、Sunday的ACT-1等模型,初步证明这条路径可以跑通。国内外厂商迅速跟进,形态各异的UMI设备陆续面世,夹爪、腕带相机、手套、头环+手机、头环+夹爪等等。
今年3月,鹿明机器人发布了FastUMI无本体数采产品体系,涵盖夹爪类硬件FastUMI Pro、背包形态数采设备FastUMI Go、头戴式硬件FastUMI Ego、以及6轴协作机械臂FastUMI Touch。
鹿明在2025年通过自建数采工站,已经完成了10万小时数据的采集,据鹿明联合创始人赵广智介绍,接下来,鹿明数据采集会分两步走:第一步,2026年以与政府/产业方合作建设数采工厂方式,实现100万小时数据产能;第二步,2027年,以众包激励形式,实现1000万小时的数据产能。
图:FastUMI Pro
4月,智元机器人孵化的具身智能数据公司觅蜂科技推出MEgo系列无本体数据采集硬件,包括多模态采集夹爪MEgo Gripper,头戴相机+腕部相机MEgo View。觅蜂科技的目标是,2026年数据采集规模达到千万小时,2030年前向百亿小时级数据产能迈进。姚卯青的解释称,1万台设备,一天工作十多小时,产出4小时的有效数据,按照一年250个工作日,总计能够产出1000万小时数据。
MEgo View
然而,技术路线的变化比想象中更快。2026年3月的英伟达GTC大会上,英伟达EgoScale框架问世——用2万小时带动作标注的第一人称人类视频,对视觉-语言-动作(VLA)模型进行预训练,再用4小时的灵巧手机器人实操数据进行轻量级中期训练,就让机器人学会了拧瓶盖、叠衬衫、转移液体等操作,成功率88%。它要讲的故事是,每个人的日常工作视频,就是机器人学习物理规律的理想教材。
UMI一度是众包主流,但英伟达EgoScale框架开启了采集效率更高、成本更低的新方向——Ego-Centric,参与者只需要在头上或者胸前佩戴拍摄设备,双手不需要额外设备,甚至连专门的拍摄设备也不需要了,只需要一部手机,以及固定手机的头环或者胸前支架。
“特斯拉50万+车辆在日常行驶中自动采集道路数据,实现零边际成本的数据飞轮。我们当时在想:具身智能有没有类似的"车队"?答案是——人类本身。人类即Agent、手机即传感器。”朱凯对亿邦AI如是说。
由此,具身智能数据采集这项工作,从固定人员、固定场所变成固定人员、不固定场所,再变成不固定人员、不固定场所。以众包形式开展数采,成为更经济的选择。
今年4月,京东云自研了可穿戴式超高清采集终端JoyEgoCam,发动京东本身10万员工,以及外部最多50万各行业人员,在物流、商店、家政等多种场景下“即戴即采”。京东将此称为“人类历史上规模最大的数据采集行动”,目标是用两年时间,采集超过1000万小时的基于真实场景的无本体的视频数据。
京东云JoyEgoCam
蚂蚁数科天玑实验室团队研发了成本更低的方案——第一人称视频采集框架AoE(Always-On Egocentric),通过一台手机和一个低于20美元的颈挂式支架。“这不只是降成本,更关键的是,当采集者从少数专业人员变成千千万万的普通人,数据天然覆盖了最广泛的任务种类、操作习惯和场景分布,从机制上保证了对规模化预训练最有价值的、以任务多样性为核心的多维度多样性。”朱凯说。
AI眼镜更是将“ego+众包”的数采方式发挥到极致。4月,成立仅三周的纵横物理推出数采AI眼镜Across(售价1699元),它不仅和普通AI眼镜一样具备AI对话、AI识图、拍照录像等常规功能,还能用于“采集数据赚金币”,用户录制冲咖啡、做菜、整理家务等视频,上传至云端平台,纵横物理会根据视频的“质量”和“稀缺性”,发布虚拟金币,金币可提现。5月6日他们又推出售价899的AI眼镜,用户采集一小时有效数据大约有十几元收益。
某配线厂工人佩戴Across AI眼镜日常工作,录制的视频通过Across App上传到Across Cloud进行全自动视频处理和四维深度重建,打包形成高质量具身智能数据集
在纵横物理创始人吴楠看来,“你不能为了去做具身智能数据采集,而去专门发明一个数据采集硬件,这样是不可持续的。”而眼镜可以自然地融入生活,因此也能更快速的扩大采集数量。“比如说我们发动全民众包,全球发动10万人,每人每天采两三个小时有效数据,那么一个月就能采100小时,10万人就1000万小时。有了这样一套非常庞大的自己采集真人的数据量之后,我们会去做1:10生成式扩增,这样今年能到1亿小时,明年1:100,后年就1:1000,到后年才能达到1万亿小时。”
数采设备迭代太快了,甚至有些设备还没来得及量产就已经落伍了。
“现在就是一个战国时代,变化非常快,这个月的方案下个月可能就不一样了。”何鸿凌直言。作为有十多年人工智能数据服务经验的企业,数据堂在2025年下半年开始涉足具身智能数据采集业务,3月之前,数据堂的数采厂和场外采集还在使用夹爪,三月到四月,很多正在评估的任务都是直接用手操作。
这也就意味着,数据采集厂商在某一路线某一设备上的大量投入,很有可能在短时间内被替代。设备是否能成为主流,不仅取决于技术,更取决于能否在商业上证明其价值——即用新设备采集的数据训练出的机器人,必须比传统方法“聪明一倍”,才能推动大规模采用。
“我们肯定是需要充分的去调研,慎重的去做决定。说实话,一个就得看眼光,第二个还得看运气。因为这世界确实变化太快了,有的时候运气也是也是实力的一部分。”何鸿凌说。
毛利100%的生意
数据采集端的成本还在持续压缩。
阿信在一个微信群接受了一个简单的数据采集线上培训,便开始在家按要求拍视频。这项工作并没有想象中那么轻松:镜头必须持续稳定拍摄到全部手部动作,被遮挡或动作不完整会扣除帧数(1秒3帧)。采集时长不等于有效时长,无效的原因可能是光线不够、手移出了画面、动作太快,甚至背景里出现了不该出现的东西。数采商还会开发一系列指令脚本,不断提醒采集者调换物品,调换位置,调整光线。
她按照要求倒水浇花,布置场景加拍摄用了十几分钟,但有效时长只有十几秒。这也是所有采集者的共识:每天拍摄时长8小时,有效时长往往不到2小时。“按照符合要求的视频时长计算。比如倒一杯水,几秒钟;洗一个碗,十几秒。十几秒十几秒累计,采集一天,最多能赚100块。”阿信发现。
这是一份门槛低、自由度大的数字零工,也是一份非常消耗耐心,产出不稳定的差事,而且这份工作的酬劳还在快速贬值。
3月初,众包价格(有效时长)为50元/小时,要求每天采集时长不低于8小时。越到近期,众包价格越低,已经低至20元-22元/小时,每天采集时长不低于9小时。
设备层面,早期需要数采员练习使用夹爪,而且要求动作不能太快,但短短两个月夹爪就开始被淘汰,拍摄设备也从只要苹果手机,变成安卓手机全适配。4月底,人力公司的数据采集培训需求里,只需一根淘宝购买的50元左右挂脖支架(人力公司报销),下载采集软件,就可以参与数据采集,没有其他额外硬件需求,也不需要额外放慢速度,只要画面清晰完整即可。
挂脖手机支架
采集成本在降低,需求热度不减,意味着当下数据采集是一个有利可图的生意。
有行业人士估计,付给众包数采员的报酬,加上前期培训、后期审核、标注、算法处理等,数采厂商的总成本大约100元/小时,而对外售价可以达到200元。也就是说,毛利高达100%。
纵横物理更是提出在真人采集的数据基础上用算法生成式扩增,“我们有一套自己的重建算法,能把一个十几块钱的成本,通过重建算法给它优化到能售价400块钱的这样一个价值。 ”吴楠说:“突破一个亿的营收很简单。”
虽然众包成本够低,但是问题也很多。何鸿凌告诉亿邦AI,众包最大的问题在于数据质量难以保证,如动作不流畅、任务理解错误、重复采集同一场景(如反复叠同一件衣服)等问题普遍,导致大量数据无效。而且由于采集标准复杂,前期的培训成本高,培训之后的流失又难以控制。
另一个问题在于人员配合度与隐私冲突,众包采集常涉及拍摄他人或敏感环境(如家庭、商店),易引发隐私争议;而打码会损害数据质量,因为机器人实际运行时无法识别打码内容。
去年9月,数据堂在保定建立了300台机器人、8000平米的真实场景真机数采厂,但何鸿凌认为,场外数据采集、第一人称视角是大势所趋,数据堂的方式是雇佣有经验的采集员,到各地租赁空置房间进行采集。
姚卯青也明确表示:“觅蜂不会大规模搞几万人外包或者众包,还是以加盟方式,觅蜂先做0-1的样板,制定流程规范标准区拿到代工厂做复制。”
有买方和卖方,就有平台的机会,平台的作用是统一数据标准,匹配供需,调节市场价格。就在4月份,连续三家公司推出具身智能数据交易平台。
京东的具身智能数据交易平台,汇聚京东自有的多模态数据资源,首批定向开放2000小时高精标注数据集,打通具身智能数据合规交易通道;觅蜂科技的物理AI数据服务平台,联合上电科、国家数据标委会、工信部赛迪研究院共同发起蜂巢数据共创行动;百度智能云联合零次方、灵生、傅利叶、纬钛科技、拓元智慧、枢途科技、松应科技等多家头部具身智能企业,推出"具身智能数据超市(Beta版)"。
技术转向:VLA还是世界模型?
从一线数采员角度看,数采的要求在不断放宽。
早期兼职数采员领取专用夹爪和头环后,厂家要求“动作必须精准,角度不能偏,速度不能快”,原因是,这些数据要直接喂给机器人模仿;但4月开始,很多数采任务只要求数采员用手机拍摄,不需要夹爪,后台也不再苛求每一次叠衣的折痕位置,反而更在意数采员是否在不同光线、不同桌面高度、不同衣物材质下反复操作。
同样是叠衣服,为什么以前要求“像机器人一样标准”,现在却鼓励“像人一样随意”?答案藏在算法路线的剧烈转向中。
过去几年,主流的具身大脑模型使用VLA,逻辑是“照葫芦画瓢”——用海量机器人真机遥操作数据或者类似机器人的夹爪,训练模型直接输出动作指令。这种路线下,采集员必须模仿机器人的精度,因为每一个关节角度、每一毫秒的力矩都是训练样本的“标准答案”,而廉价的数据“噪声太大,模型学不会”。
2025年下半年开始,另一条技术路线迅速崛起——世界模型(WAM)。它主张机器人先别急着模仿动作,而是从海量、廉价的人类第一人称视频里学习物理世界的因果规律:重力会让杯子下落,衣物折叠时的褶皱如何产生,不同力度拧瓶盖的结果有何不同。学会了这些“常识”,再只需少量真机数据微调,就能让机器人的能力泛化到从未见过的任务。
世界模型路线对采集数据的要求截然不同:它不需要毫米级精度的关节角,反而需要大量、多样、真实的日常操作场景,哪怕动作不够标准、光线角度各异、环境杂乱无章——因为这些恰恰是物理世界的本来面目。
数采员手中的工具从夹爪降级为手机,从“精准示范”变为“正常记录”,背后正是VLA与WAM两条路线的此消彼长。
当然,真正驱动众包热潮转向的,除了算法路线的更迭,还有另一股不容忽视的力量——资本与竞争的合流。
年初,具身大脑赛道融进了太多热钱,头部公司动辄数十亿估值,钱到账了,成果却还没着落。用新路线讲新故事,成了最紧迫的任务。世界模型恰好提供了这样一个出口:它够前沿、够颠覆,而且天然契合“海量数据+泛化能力”的叙事,能让投资人相信明年会有更大的突破。
同时,全球范围内的数采竞赛也在倒逼行业加速——美国有DoorDash的配送员录视频,印度有服装厂工人戴头环,谁先建立起百万小时级的数据壁垒,谁就掌握了下一轮竞争的主动权。融资节奏与全球竞赛的双重驱动,让众包采集从“可选项”变成了“必选项”。
但是在实际落地中,没有哪家公司死守纯VLA或纯世界模型。英伟达一边高喊“VLA已死”,一边在自己的机器人里跑着VLA;宇树嘴上推崇世界模型,转身就开源了VLA模型。真正的行业玩家比的还是谁能在最短时间内用最低成本跑通数据闭环,谁能让自己的模型在工厂、家庭、商超里稳定干活。路线之争喊得再凶,也不耽误大家在同一个工程泥潭里摸爬滚打。
这是2026年最真实的图景:一场关于物理世界的军备竞赛,万亿资本竞相涌入,千万普通人被卷入其中。而所有人都在等——等具身智能的“ChatGPT时刻”在真实世界中降临的那一天。
本文来自微信公众号“亿邦动力”,作者:胡镤心 张睿,36氪经授权发布。
该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。
