豆包大模型1.8与Seedance 1.5 pro发布，多模态Agent竞争进入系统化作战阶段_资讯

豆包大模型1.8与Seedance 1.5 pro发布，多模态Agent竞争进入系统化作战阶段

作者：安安

 时间：2025-12-19 14:41:40

篮球比赛的视频被AI快速分析，最终浓缩出整场比赛的精华内容；一段AI生成的视频中，角色的口型与多语言台词实现了毫秒级精准同步。火山引擎FORCE原动力大会上展示的这些能力，标志着大模型行业正全面进入以多模态智能体为核心的新阶段。

2025年12月18日，火山引擎在FORCE原动力大会上正式发布豆包大模型1.8（Doubao-Seed-1.8）及音视频创作模型Seedance 1.5 pro。

火山引擎总裁谭待透露，截至今年12月，豆包大模型日均token使用量突破50万亿，较去年同期增长超过10倍；目前已有超过100家企业客户累计token使用量超过一万亿。

01 技术突破

本次发布的豆包大模型1.8，其核心升级完全围绕“打造更强大的Agent大脑”展开。

与单纯追求参数规模不同，该版本在设计之初便针对多模态Agent场景进行定向优化，在复杂指令遵循、多轮交互以及操作系统级别的实际操作能力上实现了系统性增强。

在至关重要的多模态理解层面，豆包1.8完成了视觉能力的底层升级。其单次视频理解帧数提升至1280帧，并能以低帧率解析超长视频，在需要时调用工具对关键片段进行高精度分析。

这一能力使得模型能够处理在线教育课程、工业质检视频等复杂冗长的视觉信息，为Agent在真实场景中自主决策提供了感知基础。

02 行业领先

权威评测数据显示，豆包大模型在多模态理解、生成能力及Agent能力上，已跻身全球第一梯队。

在多项公开评测中，豆包1.8展现出极具竞争力的全面表现：在视觉推理、通用视觉问答、空间理解及视频理解等任务中，均获得最佳或接近最佳成绩。

在通用智能体测评集BrowseComp上的综合表现位居全球前列。在数学与推理等基础能力维度上，整体水平已接近全球顶尖的通用模型。

模型在ZeroBench主集上获得了11.0分，超越Gemini-3-Pro的10.0分，位居业界首位。ZeroBench是极限视觉推理基准测试中的核心部分，评分越高，代表模型越能理解复杂的视频。

03 音画同步

同步亮相的音视频创作模型Seedance 1.5 Pro，则从内容创作端展示了多模态融合的更高阶形态。

该模型采用创新的原生音视频联合生成架构，实现了毫秒级的音画同步，并能基于画面景深和角色数量，精准匹配多人、多语言对话的口型。

这解决了AI视频生成中长期存在的“张口无声”或口型错位的顽疾，将技术从“炫技”推向“实用”。

模型支持多语种语音生成，能够相对自然地呈现中文、英文、日文、韩语、西班牙语、印尼语等语种的声韵。尤其在中文语境下，模型还能模拟四川语、粤语等多种方言口音。

在画面表现上，模型具备自主运镜能力，可完成长镜头跟拍、希区柯克式变焦等复杂镜头调度，并实现电影级转场衔接与影调处理，显著增强视频的动态张力与艺术表现力。

04 生态建设

火山引擎全面升级了企业级AI Agent平台——AgentKit，覆盖了Agent从开发、部署到管控的全生命周期。

同时，火山引擎推出了HiAgent智能体工作站，通过构建统一的企业AI任务调度中心、提供一系列开箱即用的通用智能体，以及支持个性化定制智能体应用，帮助企业实现Agent的规模化管理与应用。

除了提升模型能力外，火山引擎还推出业内首个“AI节省计划”，该计划通过阶梯定价，承诺最高可为按量付费的企业节省47%的成本。

个人用户已可在豆包、即梦AI等平台体验该模型；企业用户则可从12月23日起，通过火山引擎API接入Seedance 1.5 pro模型服务。

05 行业影响

中国移动通信联合会教育与科学技术研究院执行院长陈晓华指出：“目前大厂在多模态Agent领域的竞争已从单点模型能力比拼，升级为‘模型—平台—生态’的系统化作战。”

火山引擎此次发布的产品旨在依托其日均调用量的规模优势，在Agent生态底座上确立领先地位。

赛智产业研究院人工智能研究所副所长安赟分析认为，这标志着大模型行业已从单纯的参数竞赛，全面进入了以多模态Agent为核心的产业落地新阶段。

通过多模态感知与Agent规划能力的结合，AI能够跨越感知与行动的鸿沟，真正具备了在垂直场景中闭环完成任务的能力。

谭待表示：“通过从模型能力到基础设施的全面革新，火山引擎正在推动AI应用从单一的模型调用向复杂的Agent智能体生态演进，加速AI在各行各业的深度落地。”

在发布会现场演示中，豆包1.8对一段篮球视频进行分析，最终浓缩出整场比赛的内容精华。另一段由Seedance 1.5 pro生成的赛博朋克风格短片，则细腻捕捉了人物从眼眶含泪的压抑悲伤，到神情转为温柔坚定的微表情变化。

当大模型不再只是回答问题的工具，而是能看、能听、能操作、能创作的智能体时，人与机器的交互方式正在被重新定义。AI正从实验室走向真实世界，成为能够闭环完成复杂任务的合作伙伴。

分享到：

OpenAI 拟推出家长监控功能应对青少年使用安全问题

 2025-08-29
百度发布全新原生全模态大模型文心5.0

 2025-11-14
智造升维，范式进化：第二届高端制造创新大会带您开启苏南制造数智突围新局 | 品牌大会

 2026-06-03
谷歌Gemini 3破解百年“天书”，AI首次逼近人类专家破译水平

 2025-11-13
中国生物制药 | 正大天晴曹奋泽：智能跃迁 AI 驱动制药产业的未来图景

 2025-05-06
千问App“长腿了”：接入高德地图，大模型学会指路办事

 2025-12-19

热门标签

OpenAI 拟推出家长监控功能应对青少年使用安全问题

百度发布全新原生全模态大模型文心5.0

智造升维，范式进化：第二届高端制造创新大会带您开启苏南制造数智突围新局 | 品牌大会

谷歌Gemini 3破解百年“天书”，AI首次逼近人类专家破译水平

中国生物制药 | 正大天晴曹奋泽：智能跃迁 AI 驱动制药产业的未来图景

千问App“长腿了”：接入高德地图，大模型学会指路办事

OpenAI Codex全面攻占Windows，手机远程接管PC，7x24小时“数字员工”来了

英特尔宣战英伟达：AI算力，不是只有GPU一条路

OpenAI亲自下场造机器人：时隔六年，世界模拟能力成为最大底牌

马斯克AI烧钱游戏：xAI去年巨亏64亿美元，靠Starlink养家，还要把算力送上天

8小时狂揽15K美金！Claude Code屠榜黑客松，开源神器爆15万星

魔镜洞察

拜特科技

奇墨科技

致远互联

滴普科技

关于Tech技术加

快速导航

热门推荐

关注我们

微信在线客服

电话： +86 15618587198