篮球比赛的视频被AI快速分析,最终浓缩出整场比赛的精华内容;一段AI生成的视频中,角色的口型与多语言台词实现了毫秒级精准同步。火山引擎FORCE原动力大会上展示的这些能力,标志着大模型行业正全面进入以多模态智能体为核心的新阶段。
2025年12月18日,火山引擎在FORCE原动力大会上正式发布豆包大模型1.8(Doubao-Seed-1.8)及音视频创作模型Seedance 1.5 pro。
火山引擎总裁谭待透露,截至今年12月,豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍;目前已有超过100家企业客户累计token使用量超过一万亿。
01 技术突破
本次发布的豆包大模型1.8,其核心升级完全围绕“打造更强大的Agent大脑”展开。
与单纯追求参数规模不同,该版本在设计之初便针对多模态Agent场景进行定向优化,在复杂指令遵循、多轮交互以及操作系统级别的实际操作能力上实现了系统性增强。
在至关重要的多模态理解层面,豆包1.8完成了视觉能力的底层升级。其单次视频理解帧数提升至1280帧,并能以低帧率解析超长视频,在需要时调用工具对关键片段进行高精度分析。
这一能力使得模型能够处理在线教育课程、工业质检视频等复杂冗长的视觉信息,为Agent在真实场景中自主决策提供了感知基础。
02 行业领先
权威评测数据显示,豆包大模型在多模态理解、生成能力及Agent能力上,已跻身全球第一梯队。
在多项公开评测中,豆包1.8展现出极具竞争力的全面表现:在视觉推理、通用视觉问答、空间理解及视频理解等任务中,均获得最佳或接近最佳成绩。
在通用智能体测评集BrowseComp上的综合表现位居全球前列。在数学与推理等基础能力维度上,整体水平已接近全球顶尖的通用模型。
模型在ZeroBench主集上获得了11.0分,超越Gemini-3-Pro的10.0分,位居业界首位。ZeroBench是极限视觉推理基准测试中的核心部分,评分越高,代表模型越能理解复杂的视频。
03 音画同步
同步亮相的音视频创作模型Seedance 1.5 Pro,则从内容创作端展示了多模态融合的更高阶形态。
该模型采用创新的原生音视频联合生成架构,实现了毫秒级的音画同步,并能基于画面景深和角色数量,精准匹配多人、多语言对话的口型。
这解决了AI视频生成中长期存在的“张口无声”或口型错位的顽疾,将技术从“炫技”推向“实用”。
模型支持多语种语音生成,能够相对自然地呈现中文、英文、日文、韩语、西班牙语、印尼语等语种的声韵。尤其在中文语境下,模型还能模拟四川语、粤语等多种方言口音。
在画面表现上,模型具备自主运镜能力,可完成长镜头跟拍、希区柯克式变焦等复杂镜头调度,并实现电影级转场衔接与影调处理,显著增强视频的动态张力与艺术表现力。
04 生态建设
火山引擎全面升级了企业级AI Agent平台——AgentKit,覆盖了Agent从开发、部署到管控的全生命周期。
同时,火山引擎推出了HiAgent智能体工作站,通过构建统一的企业AI任务调度中心、提供一系列开箱即用的通用智能体,以及支持个性化定制智能体应用,帮助企业实现Agent的规模化管理与应用。
除了提升模型能力外,火山引擎还推出业内首个“AI节省计划”,该计划通过阶梯定价,承诺最高可为按量付费的企业节省47%的成本。
个人用户已可在豆包、即梦AI等平台体验该模型;企业用户则可从12月23日起,通过火山引擎API接入Seedance 1.5 pro模型服务。
05 行业影响
中国移动通信联合会教育与科学技术研究院执行院长陈晓华指出:“目前大厂在多模态Agent领域的竞争已从单点模型能力比拼,升级为‘模型—平台—生态’的系统化作战。”
火山引擎此次发布的产品旨在依托其日均调用量的规模优势,在Agent生态底座上确立领先地位。
赛智产业研究院人工智能研究所副所长安赟分析认为,这标志着大模型行业已从单纯的参数竞赛,全面进入了以多模态Agent为核心的产业落地新阶段。
通过多模态感知与Agent规划能力的结合,AI能够跨越感知与行动的鸿沟,真正具备了在垂直场景中闭环完成任务的能力。
谭待表示:“通过从模型能力到基础设施的全面革新,火山引擎正在推动AI应用从单一的模型调用向复杂的Agent智能体生态演进,加速AI在各行各业的深度落地。”
在发布会现场演示中,豆包1.8对一段篮球视频进行分析,最终浓缩出整场比赛的内容精华。另一段由Seedance 1.5 pro生成的赛博朋克风格短片,则细腻捕捉了人物从眼眶含泪的压抑悲伤,到神情转为温柔坚定的微表情变化。
当大模型不再只是回答问题的工具,而是能看、能听、能操作、能创作的智能体时,人与机器的交互方式正在被重新定义。AI正从实验室走向真实世界,成为能够闭环完成复杂任务的合作伙伴。