EditWorld技术突破:革新图像编辑领域,引领真实世界动态模拟

在图像编辑领域,真实物理世界的准确模拟一直是一个挑战。北京大学、Tiamat AI、天工AI和Mila实验室联合提出了一项名为EditWorld的新技术,它通过引入世界指令(world-instructed)图像编辑,为这一难题提供了解决方案。

EditWorld技术的核心在于定义和分类基于各种世界场景的指令,并通过这些指令创建了一个新的多模态训练数据集。这个数据集包含了大量的输入-指令-输出三元组,为图像编辑提供了丰富的上下文信息。

Editworld技术突破:革新图像编辑领域,引领真实世界动态模拟

在技术实现上,EditWorld利用了GPT-3.5、Video-LLava和SDXL等预训练模型的支持,训练了一个基于扩散的图像编辑模型。这一模型在新任务中的表现显著优于现有方法,实现了图像编辑领域的新最佳状态(SOTA)。

现有的图像编辑方法虽然能够产生高质量的结果,但在处理物理世界的真实视觉动态方面存在不足。例如,InstructPix2pix和MagicBrush在生成合理的编辑结果上存在困难。EditWorld通过定义7种不同的编辑类型,包括现实世界指令、空间转换、物理转换、隐含逻辑、故事型指令、现实到虚拟以及夸张变形,有效地解决了这一问题。

为了构建高质量的数据集,团队采用了文本到图片生成和视频分镜提取两个分支。文本生成图片分支通过GPT生成文本四元组,并利用关键词对应的attention map进行编辑位置定位。视频分镜提取分支则从视频中提取关键帧,以增强数据的真实性和多样性。

Editworld技术突破:革新图像编辑领域,引领真实世界动态模拟

此外,团队还对生成的数据进行了人工复查,以进一步提升数据质量。通过finetune InstructPix2Pix模型,并提出post-edit策略,EditWorld实现了更为精确的编辑效果。

EditWorld技术的论文和代码已经公开,感兴趣的研究者和开发者可以通过以下链接获取更多信息:

EditWorld项目地址入口:https://www.yumiok.com/aitools/sites/1952.html

Editworld技术突破:革新图像编辑领域,引领真实世界动态模拟

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手