SadTalker:学习现实的3D运动系数风格化音频驱动的单图像说话的脸动画。
摘要 通过人脸图像和一段语音音频生成说话头视频仍然存在许多挑战。例如,不自然的头部运动,扭曲的表情和身份修改。我们认为这些问题主要是因为从耦合的二维运动场中学习。另一方面,明确使用3D信息也会遇到僵硬的表达和不连贯的视频问题。我们提出了SadTalker,它可以生成3英寸的3D运动系数(头部姿势,表情)。
Matrix-3D 是一个开源工具,能够从单张图片或文本提示生成大规模可探索的 3D 场景,支持全景视频生成和 3D 场景重建,具有高可控性和强大的泛化能力。
一个新颖的框架,能够将2D视频转换为沉浸式立体3D视频,满足3D内容在沉浸式体验中日益增长的需求。
SAMURAI 是一种基于 Segment Anything Model 2 (SAM 2) 增强的视觉对象跟踪工具,它通过引入时间运动线索和运动感知记忆选择机制,实现了无需重新训练或微调的鲁棒、准确跟踪。
Gen-2 是 RunwayML 提供的一款 AI 视频生成工具,它允许用户通过文本提示或图像转换成视频。用户可以输入简单的文本提示,如“a waterfall”(一个瀑布),并添加修饰词来影响生成视频的风格、构图和整体情绪。
VMix 是一个用于提升文本到图像扩散模型美学质量的插件式美学适配器。它通过在图像生成过程中引入美学控制,增强了生成图像的美学表现,同时保持了图像与文本的对齐。
AI虚拟角色互动平台,用户可以创建和自定义虚拟角色,并与之进行智能对话和互动。
Matrix-3D 是一个开源工具,能够从单张图片或文本提示生成大规模可探索的 3D 场景,支持全景视频生成和 3D 场景重建,具有高可控性和强大的泛化能力。