谷歌Gemini Omni提前泄露:AI视频生成首次正确渲染数学公式

一段"教授在黑板上推导三角恒等式"的10秒AI生成视频,这两天在社交媒体上刷屏了。这段视频来自谷歌尚未正式发布的全新视频生成模型——Gemini Omni。作为AI视频生成领域的一次重要突破,Gemini Omni首次在视频中实现了数学公式的精准渲染,被业界评价为"打穿了文本一致性这道阿喀琉斯之踵"。

Gemini Omni

就在Gemini移动端App主页截流出不到一天,有用户又意外触发了Gemini聊天界面中的视频生成功能入口。界面中明确写道:"用Gemini Omni来创作,认识一下我们全新的视频生成模型。重混你的视频、在对话中直接进行编辑、尝试模板。"不过,该用户再次打开Gemini应用时,Omni功能已消失,界面恢复旧版。

一、文本一致性难题被破解

AI视频生成长期以来面临的最大挑战之一,是视频中文字内容的准确性问题。传统扩散模型在渲染文字时常常出现字符扭曲、错位甚至乱码,这在需要展示文字的教学或演示视频中几乎是致命缺陷。Gemini Omni通过改进的视觉编码器和跨模态注意力机制,首次在视频生成中实现了文字的精准呈现。

在"教授书写三角恒等式"的测试案例中,用户仅输入一句提示词:"一位教授在传统的黑板上写出三角恒等式的数学证明,并解释他目前在方程式中执行的步骤。"Gemini Omni生成的10秒视频不仅画面真实感强,更完美呈现了黑板上的数学公式内容。AI创作者社区的博主@Azed_ai评价称:"如果这是实际输出,那么文本一致性确实令人难以置信。"作为对比,同等提示词下Seedance 2.0生成的板书内容与数学主题关联较弱,文字渲染仍有明显缺陷。

二、全模态架构与差异化编辑能力

与此前独立的视频生成模型Veo不同,Gemini Omni基于全模态统一架构设计,是继Nano Banana之后又一个深度集成到Gemini平台的核心能力模块。这意味着用户可以在同一个对话界面中,同时完成文本对话、图像生成、视频创建和编辑等多项任务。

Gemini Omni最令人惊喜的能力之一是其强大的视频编辑功能。测试显示,该模型可以将在意大利面场景中一键替换为冬阴功汤,还能精准移除Sora生成视频中的动态水印,且画面保持流畅自然。这种"无痕编辑"技术若成熟,或将重塑视频内容创作生态。

在音质方面,Gemini Omni同样实现了对竞品的超越。测试者反馈,模型生成的视频不仅有同步的语音讲解,还自动配上符合场景的背景音乐,音质远超市面上其他视频生成模型,被评价为"迄今听过最好的视频音频"。

三、商业化挑战与技术竞争格局

然而,Gemini Omni的高昂计算成本仍是一大障碍。有测试用户透露,生成数学板书和吃面两个视频,就消耗了AI Pro订阅计划每日额度的86%。这意味着视频生成目前仍是一门"烧钱"的生意,大规模商业化落地还需要在效率和成本之间找到更好的平衡。

与此同时,Gemini Omni与Seedance 2.0、Kling 3.0等竞品的对比也引发了行业讨论。在物理逻辑模拟方面,Gemini Omni仍有提升空间——在"威尔·史密斯吃意大利面"的经典测试场景中,Gemini Omni生成的人物入座前餐盘为空,开吃后面条却凭空消失,这是当前AI视频在物理逻辑模拟上的普遍困境。

谷歌预计将在5月19日举行的Google I/O大会上正式确认该模型,届时或公布更多技术细节和开放时间表。业界普遍认为,Gemini Omni的提前曝光具有明显的造势意味——在OpenAI、Runway、快手可灵等竞争对手密集发布新品的当下,谷歌正在试图通过这一"意外泄露"重夺视频生成领域的关注度和话语权。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手