一段预先录制的语音样本作为“声纹密码”,加上200字以内的角色设定文本,一个拥有特定音色、性格和专业知识的人工智能对话伙伴就此诞生。
英伟达研究团队近日发布了PersonaPlex-7B-v1全双工语音对话模型,它让实时语音交互摆脱了“你说完我再说”的刻板模式。该模型采用单一Transformer架构,能同时处理听与说,实现人类对话中自然的打断、插话和即时反馈。
就像真人聊天一样,AI在说话时持续倾听,用户突然打断也能在0.24秒内做出反应并调整回应。
01 技术破局
传统语音助手遵循“ASR(语音转文本)→ LLM(大语言模型)→ TTS(文本转语音)”的串联流程。每个环节增加延迟,且无法处理语音重叠。
PersonaPlex-7B-v1用单一Transformer模型替代了整个技术栈。该模型对神经编解码器编码的连续音频进行操作,自回归地预测文本和音频标记。
这种端到端设计降低了响应延迟,模型运行采用双流配置:一个流跟踪用户音频,另一个流跟踪智能体的语音和文本,二者共享相同模型状态。
02 核心架构
PersonaPlex-7B-v1拥有70亿参数,基于Kyutai的Moshi架构构建,并使用Helium作为底层语言模型骨干。
音频处理采用24 kHz采样率。Mimi语音编码器(结合了ConvNet和Transformer层)将波形音频转换为离散标记。
时间和深度Transformer处理代表用户音频、代理文本和代理音频的多个通道。同样结合了Transformer和ConvNet层的Mimi语音解码器生成输出音频标记。
03 个性化控制
PersonaPlex通过独特的混合提示系统实现深度个性化控制。语音提示是一系列音频标记,编码了声音特征、说话风格和韵律。
文本提示则描述角色、背景、组织信息和场景上下文。系统提示支持姓名、公司名称、代理姓名和公司信息等字段,最多可使用200个标记。
这种双重引导让用户不仅能定义AI的角色背景,还能精确控制其音色和语调。
04 训练数据
PersonaPlex的训练采用了真实对话与合成数据相结合的方法。
真实对话来自Fisher英语语料库中的7303个通话,总计约1217小时。这些对话使用GPT-OSS-120B进行反向标注,添加了不同粒度的提示。
合成数据包括39322个合成助理对话(约410小时)和105410个合成客户服务对话(约1840小时)。合成对话的文本由Qwen3-32B和GPT-OSS-120B生成,Chatterbox TTS转换为语音。
05 性能表现
在对话动态基准测试中,PersonaPlex表现出色。其平稳轮流接管率达到0.908,延迟为0.170秒。
用户打断处理方面,接管率高达0.950,延迟为0.240秒。用户打断子集中,语音提示与输出之间的说话人相似度达到0.650。
在任务完成度评估中,该模型在助理和客户服务角色中的表现均优于许多其他开源和封闭系统。
06 场景应用
PersonaPlex在多种场景中展示了强大的适应能力。在客户服务场景中,它能遵循文本提示中的业务规则,展现同理心,并在说话时持续倾听。
即使面对“太空紧急情况”这类训练数据中未出现过的场景,当提示涉及火星任务中反应堆堆芯故障时,模型也能进行连贯的技术推理,并带有恰当的情感语气。
模型还能产生多样化的对话反向通道,如“哦,好的”、“是的”等,这些信号能表明在积极倾听,同时不会打断说话者的思路。
语音交互的“电话线” 已被英伟达剪断,AI不再需要等待语音信号走完“识别-理解-生成”的漫长流水线。在PersonaPlex的世界里,听与说的信号在同一个神经网络中并行流淌,如同人脑中同时进行的听觉处理和语言组织。
当技术指标上的“全双工”转化为用户体验上的“真自然”,硅基智能与碳基生命的对话边界,正在被一个70亿参数的模型悄然抹平