在文本转语音(TTS)技术长期追求“更像人”的征途中,情感表现力始终是那道最难跨越的门槛。过去的AI语音要么字正腔圆但机械味十足,要么即便能表达情绪,也无法精细到具体某个词是“开心”还是“低语”。
2026年3月10日,Fish Audio团队正式发布了新一代TTS模型 Fish Audio S2,试图彻底打破这一僵局。这款主打“情感自由”的开源模型,不仅实现了词级甚至短语级的精细化情绪控制,更原生支持多说话人对话生成,将AI语音的表现力推向了前所未有的高度。
让AI学会“表演”:用自然语言控制每一个词的情绪
Fish Audio S2最令人惊艳的核心突破,在于其对语音情绪的像素级操控能力。与以往仅能通过“高兴”、“悲伤”等全局标签调整整体语气的模型不同,S2允许用户通过自然语言指令或内联标签,在文本的任意位置插入具体的情感提示。
例如,你可以在台词中直接加入 `[laugh]`(笑)、`[whispers]`(耳语)、`[super happy]`(超级开心),甚至是更抽象的描述如 `[professional broadcast tone]`(专业播音腔)或 `[pitch up]`(升高音调)。模型会在生成音频时,严格遵循这些指令,在对应的词或短语上表现出相应的韵律、语调与气息变化。
这种能力让TTS从单纯的“朗读文本”进化为“有声表演”。据技术报告披露,为了达到这一效果,研究团队构建了包含约1000万小时、覆盖近50种语言的音频数据训练集,并结合了强化学习对齐(RL Alignment) 与双自回归(Dual-AR)架构。在Fish Audio自研的指令跟踪评测集上,S2的综合标签激活率高达93.3%,质量评分达到4.51/5.0,展现出对指令惊人的遵从度。
原生多说话人:一次推理,演完整场“对手戏”
除了情感控制,Fish Audio S2还实现了原生多说话人支持。这意味着,模型可以在单次推理中,无缝处理包含多个角色的复杂对话场景。
无论是对话的自然轮转、实时打断,还是不同角色音色的严格一致性与情感的自然传递,S2都能在生成音频时自动完成,无需额外的后处理或分轨合成。这为有声书多角色播讲、游戏NPC实时互动、虚拟主播连麦等场景提供了开箱即用的解决方案。
极致性能与完全开源:100毫秒的实时交互
在技术架构上,Fish Audio S2延续并进化了以往的积累。它采用RVQ(残差矢量量化)音频编解码技术,并结合了独特的双自回归架构:一个40亿参数的“慢速AR”模块负责规划语言结构、语义和整体韵律;另一个4亿参数的“快速AR”模块则专注于还原音色、气息和高频细节。这种分工让S2-Pro旗舰版本在生成44.1kHz高保真音频的同时,依然保持了极低的延迟。
性能方面,S2-Pro在NVIDIA H200硬件上的首音频延迟(TTFA)低于100毫秒,推理延迟小于150毫秒,完全满足实时对话机器人、虚拟主播直播等对响应速度要求苛刻的场景。
更令开发者兴奋的是,Fish Audio践行了完全开源的理念。不仅模型的权重和微调代码已在GitHub和Hugging Face全面公开,团队还发布了基于SGLang的流式推理引擎,方便开发者直接将其集成到生产环境中。
“真正的语言自由,从现在开始。”Fish Audio团队以此宣告,AI语音正在从冰冷的机械朗读,走向真正富有情感与个性的时代。随着S2的开源,我们或许很快就能在各种应用里,听到那些拥有“灵魂”的声音了。