近日,爱诗科技正式发布 PixVerse R1,这是全球首个支持最高 1080P 分辨率的通用实时世界模型。该模型凭借三大核心技术的协同突破,首次将视频生成的延迟从 “秒级” 降至 “即时” 响应,实现了 “所想即所见、所说即所现” 的实时交互体验,标志着 AIGC 领域的视频生成正式从 “静态输出” 迈入 “实时交互” 的全新阶段。
(一)三大核心技术筑牢 “实时世界” 基础
PixVerse R1 的核心能力源于三项底层技术的协同突破。Omni 原生多模态模型作为现实世界的 “计算基座”,采用 Transformer 架构,具有高扩展性,将文本、图像、音频与视频融合为单一生成序列,实现真正端到端的跨模态理解与输出。模型全程在原生分辨率下训练,避免了上采样带来的模糊与伪影,通过 scaleup 训练,使光影变化、物体运动与物理交互具备一致性和真实感。
自回归流式生成机制赋予模型 “持久记忆”,解决了长时序内容的一致性痛点。通过引入记忆增强注意力模块,可生成任意长度的视频内容,并长期维持角色身份、物体状态与环境逻辑的一致性。用户不再受限于几秒片段,而能在生成过程中随时插入新指令,系统即时响应并动态调整叙事,实现真正的 “流式交互”。
瞬时响应引擎 IRE 注入即时反应的 “神经反射”。IRE 通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新,将传统扩散模型所需的 50+ 采样步数压缩至 1–4 步,计算效率提升数百倍,让动态画面进入人眼可感知的 “即时” 响应阈值。
(二)多场景解锁 “实时共创” 新体验
基于强大的技术能力,PixVerse R1 让 “每个人都是实时世界的创造者”,在游戏、影视、直播等三大领域落地新范式。
在游戏领域,PixVerse R1 让游戏世界 “活起来”,打造动态可交互的虚拟环境。玩家可以实时影响游戏剧情走向和场景变化,获得更加沉浸式的体验。
在影视领域,PixVerse R1 让电影 “可以玩起来”,打破单向观看模式,实现互动式内容体验。观众可以根据自己的喜好和选择,实时改变剧情发展或角色命运,成为电影的共同创作者。
在直播领域,PixVerse R1 让直播 “万物可互动”,升级实时参与感与交互深度。主播和观众可以通过实时互动,共同创造直播内容,使直播形式更加丰富多样。
PixVerse R1 以 “所想即所见,所说即所现” 为核心,推动虚拟世界从 “录好再播” 的回放式形态,转向 “因你而实时演化” 的共创形态,其官方体验地址为 realtime.pixverse.ai。
(三)行业意义与未来展望
PixVerse R1 的发布是 AIGC 视频生成领域的重要里程碑。其 “实时交互” 和 “无限生成” 的能力代表了视频媒体从 “预录制” 向 “实时动态生成” 的重大范式转移,具有深远的行业影响和应用前景。爱诗科技创始人兼 CEO 王长虎表示:“PixVerse R1 是全新的媒体形式。第一次,AI 可以基于用户的意图实时生成一个持续演化、物理上合理的世界。传统视频是被记录的历史,而 PixVerse R1 开创了‘正在发生的现在’的实时生成新纪元。无论是 AI 原生游戏、互动电影,还是生成式直播电商体验,叙事都能‘所想即所现’(As You Think)。创作与消费的边界逐渐模糊:视频消费者同时也是创作者,能够在观看的同时立即调整和生成新内容。我们相信,智能化媒体应实时响应用户意图,让每个人都能成为动态叙事的创作者。”


