代码不再是“写”出来的,而是像火花一样瞬间“炸出来”的——这正在成为现实。
2026年2月13日,OpenAI深夜突袭,正式发布GPT-5.3-Codex-Spark研究预览版。这是OpenAI首次与AI芯片巨头Cerebras深度联姻的产物,也是其首个专为实时编程(real-time coding)场景设计的模型。
这款模型的核心理念只有一个字:快。生成速度超过每秒1000个token,让AI编程彻底告别“等待加载条”,进入“瞬时响应”时代。
为“实时”而生:补上Codex家族的最后一块拼图
长期以来,OpenAI的Codex系列更擅长处理长时间运行的复杂任务——那些需要自主运行数小时甚至数天的“代理式”工作。但这种模式也带来了新的问题:开发者等待时间变长、对过程的掌控感降低。
而软件开发本质上是迭代过程,需要开发者在过程中不断掌控方向、决定审美与决策。GPT-5.3-Codex-Spark的出现,正是为了补齐Codex在“即时交互”场景中的短板。
OpenAI在公告中明确表示:“Codex-Spark是我们的第一个模型,专门为与Codex实时协作而设计——进行针对性编辑、重塑逻辑或优化界面,并能立即查看结果。”
从定位上看,Spark并非要取代更强大的GPT-5.3-Codex,而是与之形成互补:一个负责深度思考、长程执行;一个负责快速响应、实时迭代。
每秒1000Token:速度的暴力美学
“每秒1000个token”是什么概念?你刚敲完回车,代码已经写完了。体感接近“瞬时响应”。
在具体的性能优化上,OpenAI交出了一份亮眼的成绩单:
客户端/服务器单次往返开销降低80%
每个token的处理开销降低30%
第一个token的出现时间缩短50%
为了实现这样的“速度暴力美学”,OpenAI不仅在模型层面做了精简,更在架构层面进行了系统性重构——引入持久的WebSocket连接,重写推理栈中的关键路径,优化会话初始化机制。WebSocket路径在Spark中默认启用,并将在未来逐步成为所有模型的标配。
背后的“物理外挂”:Cerebras晶圆级引擎
速度的背后,是硬件的降维打击。
GPT-5.3-Codex-Spark跑在Cerebras的Wafer Scale Engine 3(WSE-3)上——这不是普通的GPU堆叠,而是专为低延迟设计的顶级硬件。
Cerebras的晶圆级架构采用了一种名为SRAM的超快片上内存,其速度比英伟达即将推出的Rubin GPU中的HBM4内存快约1000倍。整个芯片集成了数万亿晶体管,采用单晶圆设计,彻底消除了多芯片集群间的通信延迟。
这也是OpenAI与Cerebras合作的首个里程碑成果。上个月,双方签署了一项金额超过100亿美元的协议,部署多达750兆瓦的定制AI芯片。OpenAI明确表示:“GPU在我们的训练和推理管道中仍然是基础,为广泛使用提供最具成本效益的Token。Cerebras通过在需要极低延迟的工作流程中表现出色来补充这一基础。”
开发者的“闪电侠”:可打断、可重定向的实时协作者
对于开发者而言,GPT-5.3-Codex-Spark带来的不仅是速度的提升,更是交互范式的根本转变。
在传统的AI编码流程中,开发者往往需要等待模型完成一次较完整的推理和生成,再基于结果进行下一轮调整。而在Spark模式下,你可以一边看它写,一边随时打断它——在模型运行过程中随时中断或重定向,快速迭代,获得近乎即时的响应。
这种感觉不像是在用工具,更像是在和一个手速极快的顶级极客结对编程。
由于Spark注重速度,其默认工作方式非常轻量级:只进行最少的、有针对性的编辑,除非用户主动要求,否则不会自动运行测试。
在配置方面,Spark拥有128k的上下文窗口,目前仅支持文本。但值得注意的是,以每秒1000个token的速度,大约两分钟就会达到上下文限制——这也解释了为何Spark默认采用“轻量级”风格。
性能与安全的权衡:不是“更聪明”,而是“更快”
当然,天下没有免费的午餐。
在SWE-Bench Pro和Terminal-Bench 2.0这两个评估智能体软件工程能力的基准测试中,GPT-5.3-Codex-Spark表现出色,且完成任务所需时间远低于GPT-5.3-Codex。在Terminal-Bench 2.0中,Spark的准确性甚至优于GPT-5.1-Codex-Mini。
但更重要的是,OpenAI坦承:在整体能力上,Spark“不如”完整的GPT-5.3-Codex。更关键的是安全层面的分级——OpenAI明确表示,Spark“没有合理的机会达到”其Preparedness Framework中“高能力”的门槛(特别是在网络安全和生物学领域)。
这引发了开发者社区的广泛讨论。有用户在X平台上直言:“速度快但有缺陷的代码毫无用处。代码速度慢但正确才有用。”也有观点认为:“如果延迟降低而推理深度没有减少,这将改变日常工作流程。”
OpenAI的态度很坦诚:Spark不是为了让模型“更聪明”,而是为了让它在特定场景下“更快”。对于高频、碎片化、对即时反馈极度敏感的开发任务,这或许正是开发者最需要的那把“瑞士军刀”。
定价与可用性:Pro用户的“研究预览”
目前,GPT-5.3-Codex-Spark以研究预览(research preview)形式向ChatGPT Pro用户(200美元/月)开放。
覆盖的入口包括:Codex App、命令行界面(CLI)以及VS Code扩展。同时,API访问将向部分设计合作伙伴逐步开放。
在预览期间,Spark拥有独立的速率限制,使用量不计入标准速率限制。但当需求量较高时,用户可能会遇到访问受限或临时排队的情况。
如果按照OpenAI以往的发布节奏,Plus用户可能会是下一批获得访问权限的群体。
未来展望:从“二选一”到“两者兼得”
OpenAI的野心不止于此。
在官方公告中,OpenAI描绘了未来的蓝图:“Codex-Spark是朝着Codex具备两种互补模式迈出的第一步:当你需要快速迭代时的实时协作,以及当你需要更深层推理和执行时的长时间运行任务。随着时间的推移,这两种模式将融合。”
最终的目标是:“Codex可以让你保持在紧密的交互循环中,同时在后台将长时间运行的工作委托给子代理,或者当你需要广度和速度时,将任务并行分配给多个模型——这样你就不必一开始就选择单一模式。”
简单来说,未来的开发者不必在“快”和“准”之间二选一——两者可以兼得。
对于当下的开发者而言,GPT-5.3-Codex-Spark的发布至少释放了一个明确的信号:AI编程正在从“工具”进化为“实时协作者”。当代码生成的速度终于追上了人类思考的速度,编程这件事本身,或许也将被重新定义。
你想试试这个每秒千词的AI代码打印机吗?