谷歌发布Gemini Omni：一句话让AI帮你改大片

2026年5月20日，在Google I/O开发者大会上，谷歌正式发布了Gemini Omni全能模型。DeepMind负责人、诺贝尔物理学奖得主哈萨比斯表示，这是Gemini模型家族迄今为止能力最全面的版本，支持从任意输入生成任意输出，一句话就能让AI修改视频中的角色、背景等元素。

Gemini Omni全能模型

一、从任意输入到任意输出

Gemini Omni的核心能力在于跨模态生成与编辑。该模型支持文本、图像、音频、视频作为输入，并能输出任意模态的内容。用户上传一段视频后，只需通过自然语言指令即可对内容持续迭代：添加或删除对象、切换摄像机角度、修改环境与风格。这种对话式编辑体验，将视频创作的门槛降到前所未有的高度。

首发模型Gemini Omni Flash即日起在Gemini应用、Google Flow、YouTube Shorts可用，未来将向企业客户开放API。Google Flow是谷歌推出的全新创意工具，专门用于多模态内容的生成与编辑，让创作者能够在一个界面内完成从构思到成品的完整流程。

二、视频编辑的革命性突破

Gemini Omni的核心卖点在于深度视频编辑能力。传统视频编辑需要专业软件和复杂操作，而Gemini Omni让用户只需动动嘴就能完成：改变视频中的人物服装、替换背景场景、调整光照氛围、修改角色动作。现场演示中，用户说了一句"把背景改成海滩"，AI立刻将城市街景替换为热带海滩，同时保持人物动作和光影的完美融合。

音频方面，目前模型初期仅支持语音输入，但Google表示未来将很快扩展更多类型的音频输入能力，包括音乐生成和音效设计。这意味着创作者可以通过对话完成视频的配乐和音效调整。

三、AI智能体全面嵌入谷歌生态

Gemini Omni的发布是谷歌I/O 2026大会的重要组成部分。今年大会的主题是AI智能体全面嵌入核心入口——从搜索框到Chrome浏览器，从Android手机到智能眼镜，Gemini不再只是一个对话助手，而是一个可以持续运行、跨应用执行任务的AI代理。过去12个月，谷歌月处理Token达3.2千万亿，同比增长7倍；Gemini月活用户达9亿，展现出强劲的增长势头。

同时发布的还有Gemini 3.5 Flash，其生成输出Token的速度约为其他前沿模型的4倍，专为AI Agent和编码工具优化。谷歌正通过模型矩阵覆盖不同场景需求，从快速响应到深度推理，从轻量编辑到专业创作，构建完整的AI能力版图。

AD：精心整理了2000+好用的AI工具！点此获取

谷歌发布Gemini Omni：一句话让AI帮你改大片

一、从任意输入到任意输出

二、视频编辑的革命性突破

三、AI智能体全面嵌入谷歌生态

UUMit上线：全球首个A2A能力交易平台，开启Agent经济新时代

阿里发布Qwen3.7-Max：国产最强智能体模型，35小时长程执行突破极限

玉米AI助手

谷歌发布Gemini Omni：一句话让AI帮你改大片

一、从任意输入到任意输出

二、视频编辑的革命性突破

三、AI智能体全面嵌入谷歌生态

UUMit上线：全球首个A2A能力交易平台，开启Agent经济新时代

阿里发布Qwen3.7-Max：国产最强智能体模型，35小时长程执行突破极限

相关推荐

玉米AI助手

搜索

谷歌发布Gemini Omni：一句话让AI帮你改大片

谷歌发布Gemini Omni：一句话让AI帮你改大片