AI配音革命来了！腾讯黑科技让机器秒变金牌说书人_资讯

AI配音革命来了！腾讯黑科技让机器秒变金牌说书人

作者：安安

 时间：2025-09-01 14:50:32

热点快讯类简约风防震救灾知识首图__2025-07-08+16_13_13

近日，腾讯 ARC 实验室正式发布 AudioStory 技术，该技术在 AI 音频生成领域实现重大突破，将人工智能对音频的处理能力从单一声音模拟提升至复杂叙事构建层面，为相关行业应用开辟了全新空间。

6389205955128583868351600

作为一项创新性技术成果，AudioStory 实现了大语言模型与文生音频系统的深度融合，解决了传统 AI 模型在复杂音频编排上的技术瓶颈。传统模型仅能完成单一音效的生成，而 AudioStory 通过 “分而治之” 的核心策略，可将复杂的叙事描述拆解为有序的音频事件序列，并为每个事件配备精准的时间、情绪及场景参数。以 “悬疑追逐战” 场景为例，系统能自动分解出脚步溅水、雷声轰鸣、汽车打滑、大门关闭等关键音频元素，并按照叙事逻辑进行有机组合，形成具有完整叙事性的音频内容。

该技术的另一核心创新在于 “解耦式连接机制”。通过语义令牌与残差令牌的协同作用，构建起精准传递叙事含义与细腻还原音频质感的 “双向桥梁”，可完美呈现诸如雨声由细密到急促、雷声由远及近等具有层次变化的音效细节，大幅提升了音频的真实感与表现力。

在模型训练方面，AudioStory 采用三阶段渐进式培养策略：第一阶段夯实单音频生成基础能力，第二阶段强化音频理解与生成的协同性，第三阶段实现长篇叙事音频的统一处理。经基于一万个标注样本的 AudioStory-10K 基准数据集测试，该技术在指令遵循能力上较同类产品高出 17.85%，在音频质量、时长匹配度及叙事连贯性等关键指标上均处于领先水平。

在应用层面，AudioStory 展现出广泛的实用价值。其视频配音功能可根据无声视频内容及指定风格，自动生成同步且风格统一的背景音轨；音频续写功能能基于初始音频片段，智能推断场景发展并补充合理音效。该技术的落地，将有力推动 AI 有声书、智能播客、沉浸式游戏音效等领域的发展，使人工智能具备专业 “叙事者” 的能力，标志着文生音频技术从简单声音模仿迈入复杂叙事创作的新阶段，为人工智能在创意领域的应用拓展了新的可能性。

分享到：

【2022CDIE】盘点上半年全球企业9大并购案，企业价值下降，该如何自救？

 2022-10-17
特斯拉本土化再进一步，Model Y L率先搭载火山引擎豆包与DeepSeek双AI大模型

 2025-08-28
【深度聚焦】医疗大健康高管闭门会圆满收官，行业智慧碰撞落定！

 2025-09-17
中国生物制药 | 正大天晴曹奋泽：智能跃迁 AI 驱动制药产业的未来图景

 2025-05-06
谷歌自研芯片迎来飞跃！Tensor G5首秀跑分曝光，Pixel 10 Pro XL性能大幅提升！

 2025-08-22
豆包 App 视觉推理能力实现重大升级深度分析功能引领智能体验革新

 2025-07-30

热门标签

【2022CDIE】盘点上半年全球企业9大并购案，企业价值下降，该如何自救？

特斯拉本土化再进一步，Model Y L率先搭载火山引擎豆包与DeepSeek双AI大模型

【深度聚焦】医疗大健康高管闭门会圆满收官，行业智慧碰撞落定！

中国生物制药 | 正大天晴曹奋泽：智能跃迁 AI 驱动制药产业的未来图景

谷歌自研芯片迎来飞跃！Tensor G5首秀跑分曝光，Pixel 10 Pro XL性能大幅提升！

豆包 App 视觉推理能力实现重大升级深度分析功能引领智能体验革新

Trae2.0重磅发布—一个具备上下文工程能力的系统

AI 提示词管理工具 AI Gist 正式上线

物流机器人时代要来了？！

字节跳动 AI 编程工具 TRAE 2.0 即将发布，新增语音交互功能

AI导游重塑文旅及物流消费体验

魔镜洞察

拜特科技

奇墨科技

致远互联

滴普科技

关于Tech技术加

快速导航

热门推荐

关注我们

微信在线客服

电话： +86 15618587198