真正的情感自由！Fish Audio发布S2：多说话人、词级情绪控制、完全开源_资讯

真正的情感自由！Fish Audio发布S2：多说话人、词级情绪控制、完全开源

作者：安安

 时间：2026-03-12 14:52:04

在文本转语音（TTS）技术长期追求“更像人”的征途中，情感表现力始终是那道最难跨越的门槛。过去的AI语音要么字正腔圆但机械味十足，要么即便能表达情绪，也无法精细到具体某个词是“开心”还是“低语”。

2026年3月10日，Fish Audio团队正式发布了新一代TTS模型 Fish Audio S2，试图彻底打破这一僵局。这款主打“情感自由”的开源模型，不仅实现了词级甚至短语级的精细化情绪控制，更原生支持多说话人对话生成，将AI语音的表现力推向了前所未有的高度。

让AI学会“表演”：用自然语言控制每一个词的情绪

Fish Audio S2最令人惊艳的核心突破，在于其对语音情绪的像素级操控能力。与以往仅能通过“高兴”、“悲伤”等全局标签调整整体语气的模型不同，S2允许用户通过自然语言指令或内联标签，在文本的任意位置插入具体的情感提示。

例如，你可以在台词中直接加入 `[laugh]`（笑）、`[whispers]`（耳语）、`[super happy]`（超级开心），甚至是更抽象的描述如 `[professional broadcast tone]`（专业播音腔）或 `[pitch up]`（升高音调）。模型会在生成音频时，严格遵循这些指令，在对应的词或短语上表现出相应的韵律、语调与气息变化。

这种能力让TTS从单纯的“朗读文本”进化为“有声表演”。据技术报告披露，为了达到这一效果，研究团队构建了包含约1000万小时、覆盖近50种语言的音频数据训练集，并结合了强化学习对齐（RL Alignment）与双自回归（Dual-AR）架构。在Fish Audio自研的指令跟踪评测集上，S2的综合标签激活率高达93.3%，质量评分达到4.51/5.0，展现出对指令惊人的遵从度。

原生多说话人：一次推理，演完整场“对手戏”

除了情感控制，Fish Audio S2还实现了原生多说话人支持。这意味着，模型可以在单次推理中，无缝处理包含多个角色的复杂对话场景。

无论是对话的自然轮转、实时打断，还是不同角色音色的严格一致性与情感的自然传递，S2都能在生成音频时自动完成，无需额外的后处理或分轨合成。这为有声书多角色播讲、游戏NPC实时互动、虚拟主播连麦等场景提供了开箱即用的解决方案。

极致性能与完全开源：100毫秒的实时交互

在技术架构上，Fish Audio S2延续并进化了以往的积累。它采用RVQ（残差矢量量化）音频编解码技术，并结合了独特的双自回归架构：一个40亿参数的“慢速AR”模块负责规划语言结构、语义和整体韵律；另一个4亿参数的“快速AR”模块则专注于还原音色、气息和高频细节。这种分工让S2-Pro旗舰版本在生成44.1kHz高保真音频的同时，依然保持了极低的延迟。

性能方面，S2-Pro在NVIDIA H200硬件上的首音频延迟（TTFA）低于100毫秒，推理延迟小于150毫秒，完全满足实时对话机器人、虚拟主播直播等对响应速度要求苛刻的场景。

更令开发者兴奋的是，Fish Audio践行了完全开源的理念。不仅模型的权重和微调代码已在GitHub和Hugging Face全面公开，团队还发布了基于SGLang的流式推理引擎，方便开发者直接将其集成到生产环境中。

“真正的语言自由，从现在开始。”Fish Audio团队以此宣告，AI语音正在从冰冷的机械朗读，走向真正富有情感与个性的时代。随着S2的开源，我们或许很快就能在各种应用里，听到那些拥有“灵魂”的声音了。

分享到：

钉钉AI表格助理正式上线：一句话生成表格，打造企业级AI应用平台

 2025-09-24
直播复盘 | 如何推进现代化云网络，实现人、货、场三者的数字化互联闭环？

 2022-10-11
CDIE2025媒体合作指南暨招募计划启动：抢占 AI 时代数字化传播高地！

 2025-03-14
直播回放 | 能源新趋势，智启新未来，生成式AI驱动绿色转型的秘密你get到了吗？

 2025-03-16
小米自研输入法曝光：内置大模型，支持“系统级”AI纠错

 2026-04-01
【2022CDIE】盘点上半年全球企业9大并购案，企业价值下降，该如何自救？

 2022-10-17

热门标签

钉钉AI表格助理正式上线：一句话生成表格，打造企业级AI应用平台

直播复盘 | 如何推进现代化云网络，实现人、货、场三者的数字化互联闭环？

CDIE2025媒体合作指南暨招募计划启动：抢占 AI 时代数字化传播高地！

直播回放 | 能源新趋势，智启新未来，生成式AI驱动绿色转型的秘密你get到了吗？

小米自研输入法曝光：内置大模型，支持“系统级”AI纠错

【2022CDIE】盘点上半年全球企业9大并购案，企业价值下降，该如何自救？

Trae2.0重磅发布—一个具备上下文工程能力的系统

AI 提示词管理工具 AI Gist 正式上线

物流机器人时代要来了？！

字节跳动 AI 编程工具 TRAE 2.0 即将发布，新增语音交互功能

AI导游重塑文旅及物流消费体验

魔镜洞察

拜特科技

奇墨科技

致远互联

滴普科技

关于Tech技术加

快速导航

热门推荐

关注我们

微信在线客服

电话： +86 15618587198