谷歌 Veo 3.1 视频生成模型升级：音频输出与编辑控制更上一层楼

近日，谷歌正式推出 Veo 3.1 视频生成模型，这是继 5 月 Veo 3 发布后的升级版本。新版本在音频输出、编辑控制粒度和图像转视频质量等方面进行了显著升级，进一步提升了视频的真实性和用户的指令遵循能力。谷歌表示，Veo 3.1 能够生成更逼真的视频片段，并更准确地遵循用户提示指令。

一、音频输出能力的突破

Veo 3.1 的核心升级之一是新增了音频生成能力。此前版本中，诸如“Frames to Video”（首尾帧插值）、“Ingredients to Video”（多图像合成）和“Extend”（场景延展）等功能都不支持原生音频生成，用户必须在后期手动添加配乐或音效。现在，这些功能全部打通了音频通道，可以根据画面内容自动生成对应的环境音、对话和音效。例如，在 Flow 的多个核心功能中，包括连帧成片、素材生成视频和延展，均已支持原生音频生成。这使得生成的视频内容更加完整和生动，提升了用户的创作体验。谷歌 Veo 3.1 视频生成模型升级：音频输出与编辑控制更上一层楼

二、编辑控制粒度的精细化

Veo 3.1 在编辑控制粒度上也进行了显著改进。新版本允许用户向视频中添加新对象，系统会自动将其融入原有画面风格。此外，谷歌还透露，即将在其视频编辑工具 Flow 中支持从视频中移除现有对象的功能。这些新增功能进一步增强了视频编辑的灵活性和精确性。同时，Veo 3.1 还支持通过参考图像驱动角色生成、提供首尾帧由 AI 生成中间内容，以及基于末尾帧扩展现有视频等功能。这些功能的升级，使得用户能够更精细地控制视频的每个细节。谷歌 Veo 3.1 视频生成模型升级：音频输出与编辑控制更上一层楼

三、图像转视频质量的提升

在图像转视频方面，Veo 3.1 也进行了显著改进。新版本能够更准确地将图像素材转换为视频内容。通过融合物理引擎与 3D 时空注意力机制，Veo 3.1 显著提升了场景真实感。其“真实纹理捕捉”技术能够还原材质细节，如布料褶皱、金属反光等微观特征。此外，Veo 3.1 还支持 1080p 高清视频输出，画质相比前代提升了 40%。这些改进使得生成的视频在视觉效果上更加逼真。谷歌 Veo 3.1 视频生成模型升级：音频输出与编辑控制更上一层楼

四、多平台部署与广泛应用

Veo 3.1 将通过多个平台向用户开放。谷歌正在将该模型集成到视频编辑器 Flow、Gemini 应用程序，以及面向开发者的 Vertex AI 和 Gemini API 接口中。这种多平台部署策略，使得 Veo 3.1 能够满足不同用户群体的需求。自 Flow 在 5 月上线以来，用户已在该平台上创作了超过 2.75 亿个视频。这表明 Veo 3.1 的推出将进一步推动 AI 视频生成技术的普及和应用。谷歌 Veo 3.1 视频生成模型升级：音频输出与编辑控制更上一层楼

AD：精心整理了2000+好用的AI工具！点此获取

谷歌 Veo 3.1 视频生成模型升级：音频输出与编辑控制更上一层楼

一、音频输出能力的突破

二、编辑控制粒度的精细化

三、图像转视频质量的提升

四、多平台部署与广泛应用

Sora2重大升级，免费用户可以生成最长15秒的视频

通义千问 Qwen Chat Memory 功能正式上线

玉米AI助手

谷歌 Veo 3.1 视频生成模型升级：音频输出与编辑控制更上一层楼

一、音频输出能力的突破

二、编辑控制粒度的精细化

三、图像转视频质量的提升

四、多平台部署与广泛应用

Sora2重大升级，免费用户可以生成最长15秒的视频

通义千问 Qwen Chat Memory 功能正式上线

相关推荐

玉米AI助手

搜索

谷歌 Veo 3.1 视频生成模型升级：音频输出与编辑控制更上一层楼

谷歌 Veo 3.1 视频生成模型升级：音频输出与编辑控制更上一层楼