一个能“看懂”手机屏幕、模拟真人点击滑动的AI助手,如今不再是科技巨头的专属玩具。12月9日,智谱宣布开源其核心AI Agent模型AutoGLM,试图将AI手机技术推向更广阔的应用场景。
01 事件核心:智谱开源手机操作AI
2025年12月9日,中国大模型公司智谱正式宣布开源其核心AI Agent模型AutoGLM。
这一被称为具备“Phone Use”(手机操作)能力的AI模型,能够稳定完成外卖点单、机票预订等长达数十步的复杂操作流程。
这一动作意味着硬件厂商、手机厂商和开发者均可基于AutoGLM,在自己的设备或系统中复现一个能“看懂”屏幕并模拟真人进行点击、输入、滑动的AI助手。
据智谱介绍,AutoGLM已支持微信、淘宝、抖音、美团等超过50个高频中文应用的核心场景。
02 技术方案:在虚拟手机上运行,保障隐私与安全
智谱的技术方案围绕一个核心理念:“让AI会用手机之前,我们要先保证,它不会在不该点的地方胡乱伸手。”
为实现这一目标,技术团队将AutoGLM放入一个与用户真实世界脱离的“虚拟手机”里。
这台手机运行在云端,AutoGLM的每个动作都可以回放、审计和干预,用户的敏感数据则可以严格隔离。
智谱还采取了其他隐私保护机制,包括不收集用户名或密码,以及支付、内容发布等关键动作需要用户确认才执行。
值得注意的是,智谱已主动放弃了操作微信等离用户隐私较近的APP。
03 发展历程:从基础操作到复杂任务
AutoGLM的开发历程始于2023年4月。最初版本中,系统仅知道“点”、“滑”等基础操作,偶尔能完成简短流程,更多时候会迷失在操作中甚至陷入死循环。
智谱花费近一年时间建立了一套Phone Use能力框架,把点击、滑动、输入、截图、界面理解等基础动作抽象出来,让模型学会将自然语言指令拆解为稳定、可回放的操作步骤。
2024年10月25日,智谱发布了能够在真机上稳定完成一条完整操作链路的AutoGLM,一个月后,该模型实现了由AI完成的手机红包发送。
2025年,智谱发布AutoGLM 2.0,采用MobileRL、ComputerRL和AgentRL算法,让AutoGLM在上千个虚拟设备环境中同时进行强化学习,显著扩展了智能体的准确性和泛化能力。
04 行业背景:AI手机加速与平台限制
AutoGLM的开源发布正值AI手机发展提速的关键时期。近期,搭载豆包手机助手的努比亚M153工程机悄然发售,引发业界关注。
不过,手机AI化也带来了生态挑战。早在12月初,豆包手机用户反馈使用AI助手操作手机功能时,涉及操作微信会出现异常退出甚至无法登录的情况。
随后,多家电商App也开始限制通过豆包手机助手登录应用。测试显示,淘宝、支付宝、拼多多等应用均出现登录异常提示。
360集团创始人周鸿祎预测,传统流量逻辑面临崩塌,“可能会看到阿里、腾讯、美团这些大厂抱团,推出联合防御协议,一起限制AI跨App调用”。
05 实际测试:复杂场景下的表现
36氪的一篇实测报告揭示了AutoGLM在实际应用中的表现与挑战。
在购买机票任务中,用户提出“买一张后天11点到14点,从上海飞北京的机票,不要波音飞机”的要求。测试结果显示,AutoGLM对“后天”这一时间概念的理解存在不稳定情况,有时会错误选择“大后天”的日期。
报告同时指出,AutoGLM处理“11点到14点”这样的时间范围时,并非真正理解条件,而是机械依赖应用预设选项。广告弹窗也成为主要障碍之一,一旦有广告弹出,AutoGLM会暂停操作,等待广告自动消失;若广告持续存在,则需用户手动干预。
登录环节同样存在问题,尤其是需要人脸识别、设备扫码等复杂验证的应用,AutoGLM难以应对。
06 开源动机:打破少数厂商垄断
谈及在此时开源AutoGLM的原因,智谱明确表示:“这件事(AI手机)只在一家公司做,是不够的。”
智谱认为,如果“会用手机的AI能力”只掌握在极少数厂商手中,便意味着开发者的创新空间需依赖平台开放的接口,同时也将使用户日常生活中最重要的设备越来越像“别人家的入口”。
通过开源和私有化部署,企业和开发者可以在自己的合规环境中完整掌控数据、日志和权限。用智谱的话说,就是“技术向整个生态开放,让数据与隐私永远留在使用方这一侧”。
07 模型对比:同时开源多模态模型
值得注意的是,在开源AutoGLM的几乎同一时间,智谱还开源了其多模态大模型GLM-4.6V系列。
GLM-4.6V包括面向云端与高性能集群场景的基础版,以及面向本地部署与低延迟应用的轻量版。
官方称,GLM-4.6V能够完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长上下文的文档与视频理解等任务。
在性能方面,GLM-4.6V系列将训练时上下文窗口提升到128k tokens,并将Function Call(工具调用)能力原生融入视觉模型。
价格方面,GLM-4.6V系列相较于上一代降价50%,API调用价格降至输入1元/百万tokens,输出3元/百万tokens,轻量版则完全免费。
智谱开源AutoGLM的消息在资本市场迅速得到回应。12月9日上午,A股AI手机、PCB等板块表现活跃,胜宏科技涨超10%,超声电子涨停,工业富联、福蓉科技、华勤技术等涨超5%。
AutoGLM所体现的思路不是在驯服手机,而是在用一个自己建立的环境来驯服混乱的现实。
面对现实世界中层出不穷的验证机制和广告弹窗,智谱选择用“标准化”的云手机和云电脑,为智能体划定精细运转的边界。