谷歌发布Gemini Omni:一句话让AI帮你改大片

2026年5月20日,在Google I/O开发者大会上,谷歌正式发布了Gemini Omni全能模型。DeepMind负责人、诺贝尔物理学奖得主哈萨比斯表示,这是Gemini模型家族迄今为止能力最全面的版本,支持从任意输入生成任意输出,一句话就能让AI修改视频中的角色、背景等元素。

Gemini Omni全能模型

一、从任意输入到任意输出

Gemini Omni的核心能力在于跨模态生成与编辑。该模型支持文本、图像、音频、视频作为输入,并能输出任意模态的内容。用户上传一段视频后,只需通过自然语言指令即可对内容持续迭代:添加或删除对象、切换摄像机角度、修改环境与风格。这种对话式编辑体验,将视频创作的门槛降到前所未有的高度。

首发模型Gemini Omni Flash即日起在Gemini应用、Google Flow、YouTube Shorts可用,未来将向企业客户开放API。Google Flow是谷歌推出的全新创意工具,专门用于多模态内容的生成与编辑,让创作者能够在一个界面内完成从构思到成品的完整流程。

二、视频编辑的革命性突破

Gemini Omni的核心卖点在于深度视频编辑能力。传统视频编辑需要专业软件和复杂操作,而Gemini Omni让用户只需动动嘴就能完成:改变视频中的人物服装、替换背景场景、调整光照氛围、修改角色动作。现场演示中,用户说了一句"把背景改成海滩",AI立刻将城市街景替换为热带海滩,同时保持人物动作和光影的完美融合。

音频方面,目前模型初期仅支持语音输入,但Google表示未来将很快扩展更多类型的音频输入能力,包括音乐生成和音效设计。这意味着创作者可以通过对话完成视频的配乐和音效调整。

三、AI智能体全面嵌入谷歌生态

Gemini Omni的发布是谷歌I/O 2026大会的重要组成部分。今年大会的主题是AI智能体全面嵌入核心入口——从搜索框到Chrome浏览器,从Android手机到智能眼镜,Gemini不再只是一个对话助手,而是一个可以持续运行、跨应用执行任务的AI代理。过去12个月,谷歌月处理Token达3.2千万亿,同比增长7倍;Gemini月活用户达9亿,展现出强劲的增长势头。

同时发布的还有Gemini 3.5 Flash,其生成输出Token的速度约为其他前沿模型的4倍,专为AI Agent和编码工具优化。谷歌正通过模型矩阵覆盖不同场景需求,从快速响应到深度推理,从轻量编辑到专业创作,构建完整的AI能力版图。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手