谷歌 DeepMind“力提示”技术:无需 3D 模型也能生成真实运动视频
3D与动画
谷歌 DeepMind“力提示”技术:无需 3D 模型也能生成真实运动视频

谷歌 DeepMind 与布朗大学合作开发的“力提示”技术,能够在无需 3D 模型和物理引擎的情况下,通过指定力的方向和强度,生成逼真的运动效果。

开通正版Chatgpt账号联系QQ:515002667
谷歌 DeepMind 与布朗大学合作开发的“力提示”技术,能够在无需 3D 模型和物理引擎的情况下,通过指定力的方向和强度,生成逼真的运动效果。

一、主要功能

  • 全局力与局部力控制:用户可以指定全局力,如风力吹过整个画面,也可以指定局部力,如对特定点的敲击,实现对视频中物体运动的精细操控。
  • 自动建立力与运动关系:在文本描述中加入“风”“气泡”等物理术语时,模型能自动建立正确的力与运动关系,生成符合物理规律的视频。
  • 强大的泛化能力:尽管训练数据有限,但模型能够适应新物体、材质和场景,甚至掌握简单物理规则,如相同力下轻物移动距离比重物远。

二、技术原理

  • 基础模型与模块:基于CogVideoX-5B-I2V视频模型,加入ControlNet模块处理物理控制数据。
  • 架构与训练:通过Transformer架构生成视频,每段视频包含49帧,仅用4台Nvidia A100 GPU训练一天完成。
  • 数据与多样性:训练数据完全为合成,包括1.5万段不同风力下旗帜飘动的视频以及1.2万段滚动球体和1.1万段花朵受冲击反应的视频,通过随机化背景、光线和视角增加多样性。

三、应用场景

  • 影视制作:可快速生成逼真的特效场景,如风吹草动、物体碰撞等,减少对复杂 3D 建模和物理引擎的依赖,提高制作效率。
  • 游戏开发:为游戏中的物体运动和场景交互提供更自然、真实的视觉效果,增强玩家的沉浸感。
  • 教育与培训:用于制作教学视频,直观展示物理现象和运动规律,帮助学生更好地理解和学习。

四、使用方法

  • 输入力的参数:用户通过指定力的方向和强度,以矢量场的形式输入系统。
  • 结合文本提示:在文本描述中加入相关的物理术语,帮助模型建立力与运动的关系。
  • 生成视频:系统根据输入的力参数和文本提示,通过模型生成包含自然流畅运动的视频。

五、适用人群

  • 视频创作者:能够快速生成高质量的运动视频,提高创作效率。
  • 游戏开发者:为游戏设计提供更高效、逼真的运动效果生成方式。
  • 教育工作者:制作教学视频,丰富教学资源。

六、优缺点介绍

  • 优点
    • 高效性:无需 3D 模型和物理引擎,大大减少了生成逼真运动视频的时间和资源消耗。
    • 灵活性:支持全局力和局部力的控制,能够适应多种场景和物体,生成多样化的运动效果。
    • 泛化能力强:模型展现出强大的泛化能力,能够适应新物体、材质和场景,甚至掌握简单物理规则。
  • 缺点
    • 复杂场景局限性:在复杂场景中仍存在不足,如烟雾有时无法正确受到风力的影响,人体手臂的运动偶尔显得像布料般轻盈。
    • 图像质量有待提升:与基于真实物理模拟的PhysDreamer相比,在图像质量上稍逊一筹。
视频生成、人工智能、技术创新

相关导航