爱诗科技创始人王长虎宣布,视频生成技术正式从“记录历史”迈入“正在发生的现在”新纪元,创作与消费的边界正在实时交互中逐渐消失。
2026年1月13日晚,爱诗科技正式发布了全球首个支持最高1080P分辨率的通用实时世界模型PixVerse R1。
这一模型首次将视频生成的延迟从“秒级”降至“即时”响应,实现了“所想即所见、所说即所现”的实时交互体验。
PixVerse R1标志着AIGC视频生成从“静态输出”迈入“实时交互”的全新阶段。
01 技术突破
传统视频生成模型面临两大挑战:高延迟和固定时长生成。用户通常需要等待数秒甚至更长时间才能看到生成的短视频片段。
PixVerse R1彻底改变了这一局面,实现了真正的实时交互视频生成。用户输入指令的同时,系统几乎同步生成相应的视频内容。
这意味着用户可以边想边看,视频内容随着指令的调整而实时变化。视频不再是预先生成的封闭片段,而是可实时交互的流式体验。
02 核心架构
PixVerse R1的背后是三大核心技术支柱协同构建的完整“实时交互世界引擎”。
Omni原生多模态基础模型采用Transformer架构,实现了文本、图像、音频与视频的端到端跨模态理解与输出。
更为关键的是,该模型全程在原生分辨率下训练,避免了上采样带来的模糊与伪影,使光影变化、物体运动与物理交互具备一致性和真实感。
自回归流式生成机制通过引入记忆增强注意力模块,可生成任意长度的视频内容,并长期维持角色身份、物体状态与环境逻辑的一致性。
用户不再受限于几秒片段,而能在生成过程中随时插入新指令,系统即时响应并动态调整叙事,实现真正的“流式交互”。
瞬时响应引擎是让这一切“实时”成为可能的关键创新。
该引擎通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新,将传统扩散模型所需的50+采样步数压缩至1-4步,计算效率提升数百倍,让动态画面进入人眼可感知的“即时”响应阈值。
03 应用前景
PixVerse R1的应用场景覆盖游戏、影视、娱乐、创意等多个领域。
在游戏领域,非玩家角色与环境可实时响应玩家操作,实现真正的AI原生游戏体验。玩家与游戏世界的互动将达到前所未有的自然与流畅。
在互动娱乐中,观众可以通过语音或手势实时塑造剧情走向,传统的内容消费模式被颠覆。
在教育培训方面,PixVerse R1可作为实时学习与培训环境的基础设施,使复杂的概念和场景能够动态生成与调整。
例如,用户输入“一只猫跳上窗台,窗外下雨”,系统可同步生成1080P高清视频、雨声音效与动态光影。
在交互过程中,若用户补充指令“把天空变成黄昏”,画面将在半秒内实现自然过渡。
04 行业变革
爱诗科技创始人兼CEO王长虎表示:“PixVerse R1是全新的媒体形式。第一次,AI可以基于用户的意图实时生成一个持续演化、物理上合理的世界。”
他认为,传统视频是被记录的历史,而PixVerse R1开创了“正在发生的现在”的实时生成新纪元。
无论是AI原生游戏、互动电影,还是生成式直播电商体验,叙事都能“所想即所现”。创作与消费的边界逐渐模糊:视频消费者同时也是创作者,能够在观看的同时立即调整和生成新内容。
PixVerse R1的发布不仅是视频生成技术的突破,更标志着一种新媒介形态的诞生——视频不再是封闭的“内容成品”,而是可交互、可延续、可共同演进的数字世界。
尽管在长序列生成中可能存在时间误差累积的问题,以及在物理规律精确呈现上相较于非实时模型有一定妥协,但PixVerse R1的突破性进展不容忽视。
爱诗科技已于2025年9月完成超过6000万美元B轮融资,由阿里巴巴领投。
其旗下产品包括海外版PixVerse和国内版“拍我AI”,目前全球用户量已超1亿。
实时交互视频生成的大门已经打开,在爱诗科技的演示中,PixVerse R1就像一个永远在线的世界模拟器。
当技术从“记录过去”转向“生成现在”,我们见证的不仅是工具的升级,更是创造本身边界的消融。