谷歌推出了 Imagen 模型的最新产品 —— Imagen 3。 DeepMind CEO Demis Hassabis 表示,与前身 Imagen 2 相比,Imagen 3 能够更准确地理解翻译成图像的文本提示,并且比前几代产品更加富有创意和细致。
为了减轻人们对深度伪造的可能性的担忧,谷歌表示 Imagen 3 将使用SynthID,这是 DeepMind 开发的一种方法,可将不可见的加密水印应用于媒体。
谷歌的 ImageFX 工具可以注册 Imagen 3 的私人预览版,谷歌表示,该模型将“很快”提供给使用谷歌企业生成式 AI 开发平台 Vertex AI 的开发人员和企业客户。


字节跳动开源的一个多模态基础模型,拥有70亿活跃参数(总计140亿),在大规模交错多模态数据上进行训练,其在多模态理解排行榜上超越了当前顶级开源视觉语言模型,如Qwen2.5-VL和InternVL-2.5,并且在文本到图像生成质量上与强大的专业生成器如SD3相当。