3D与动画 AI开源项目 TRELLIS.2-4B:微软开源的高精度图像到 3D 生成工具
TRELLIS.2-4B 是微软开源的一款基于流匹配 Transformer 的大型 3D 生成模型,能够以单张图片为输入,快速生成具备高保真度、复杂拓扑结构和 PBR 材质的 3D 资产,适用于多种高精度 3D 建模场景。
TRELLIS.2-4B 是微软开源的一款基于流匹配 Transformer 的大型 3D 生成模型,能够以单张图片为输入,快速生成具备高保真度、复杂拓扑结构和 PBR 材质的 3D 资产,适用于多种高精度 3D 建模场景。
- 高分辨率 3D 模型生成:支持 512³ 至 1536³ 不同分辨率的 3D 模型生成,最高可输出 1536³ 分辨率的高精度资产,满足不同场景对细节的需求。
- 复杂拓扑与丰富材质还原:能够处理开放表面、非流形几何及全封闭结构,同时捕捉 PBR 属性(包括半透明表面的不透明度),还原真实的材质效果。
- 双向格式高效转换:通过 O-Voxel 结构实现网格与 O-Voxel 之间的瞬时无优化双向转换,转换时间仅需毫秒至秒级。
- 形状条件纹理生成:可为输入的 3D 网格和参考图片生成对应的纹理,提升 3D 模型的视觉表现力。
- 多格式导出与可视化:支持将生成的 3D 模型导出为 GLB 格式,同时提供渲染视频功能,方便展示和应用。
- 核心架构:采用 40 亿参数的大规模流匹配 Transformer,结合基于稀疏体素的 3D VAE,构建高效的生成模型框架。
- O-Voxel 表示法:创新的全向体素结构,同时编码几何形状和外观信息,无需有损转换即可支持任意拓扑结构,兼顾表达能力与效率。
- 稀疏 3D VAE 压缩:通过 16 倍空间下采样的稀疏 3D VAE,将 1024³ 分辨率的资产编码为仅约 9.6K 个潜在令牌,在几乎不损失感知质量的前提下实现紧凑的潜在空间表示。
- 流匹配生成机制:借助流匹配 Transformer 的强大建模能力,快速学习图像到 3D 资产的映射关系,实现高效推理。
- 电商产品展示:生成带 PBR 材质的 3D 产品模型,用于电商平台的 3D 展示、虚拟试用等场景,提升用户购物体验。
- 游戏与影视制作:快速构建高精度 3D 道具、场景资产,缩短游戏开发和影视特效制作的周期。
- 3D 打印领域:生成基础 3D 模型,经配套的孔洞填充等后处理脚本优化后,可用于 3D 打印生产。
- 虚拟资产创作:为元宇宙、虚拟现实(VR)、增强现实(AR)等领域提供高质量 3D 虚拟资产,支持场景搭建与内容创作。
- 科研与教育:用于 3D 建模相关的学术研究、教学演示,帮助开发者和学习者快速实现图像到 3D 的转换。
- 环境准备:需使用 Linux 系统,配备至少 24GB 显存的 NVIDIA GPU(已验证 A100、H100);安装 CUDA Toolkit 12.4、Conda 环境及 Python 3.8 以上版本。
- 依赖配置:通过 Conda 管理依赖,参考官方 GitHub 仓库的安装指南配置相关环境变量和依赖包。
- 代码调用:导入相关库(cv2、imageio、torch 等),设置环境贴图,加载 Trellis2ImageTo3DPipeline 管道,输入目标图片并运行生成 3D 网格。
- 模型优化与导出:对生成的网格进行简化处理,可渲染为视频文件,或通过后处理导出为 GLB 格式(支持 WebP 扩展)。
- 注意事项:详细安装步骤和依赖清单需参考官方 GitHub 仓库,确保环境配置符合要求以保证正常运行。
- 电商行业从业者:需要快速将产品图片转为 3D 展示模型的商家、运营人员及设计师。
- 3D 内容创作者:游戏开发者、影视特效设计师、虚拟资产创作者等需要高效生成 3D 模型的专业人士。
- 科研人员:从事 3D 生成模型、计算机视觉相关研究的学术人员和工程师。
- 技术学习者:学习图像到 3D 转换技术、3D 建模工具使用的学生和开发者。
- 3D 打印爱好者与从业者:需要将图片快速转为可打印 3D 模型的用户。
- 优点
- 生成效率高:在 NVIDIA H100 GPU 上,512³ 分辨率模型生成仅需 3 秒,1536³ 分辨率约 60 秒,远快于传统 3D 建模方式。
- 保真度高:支持复杂拓扑结构和 PBR 材质,能还原透明、半透明等细节,生成的 3D 模型视觉效果出色。
- 压缩效率优:通过稀疏 3D VAE 实现高效 latent 编码,在保证质量的同时减少资源占用。
- 格式兼容性好:支持网格与 O-Voxel 双向转换,可导出 GLB 格式,适配多种应用场景。
- 开源免费:基于 MIT 许可证开源,代码和数据集公开,便于二次开发和研究使用。
- 缺点
- 硬件要求高:仅支持 NVIDIA 高端 GPU,且对显存要求较高,普通用户难以满足运行条件。
- 系统兼容性有限:目前仅在 Linux 系统上经过测试,Windows、Mac 等系统暂不支持。
- 存在几何缺陷:生成的原始网格可能包含小孔或轻微拓扑不连续,需后处理才能满足 watertight 需求。
- 缺乏人工偏好对齐:未经过 RLHF 等对齐训练,输出风格受训练数据分布影响,可能需要多次调整输入以达到理想效果。
图像到 3D 转换工具、开源 3D 生成模型、高保真 3D 建模工具、PBR 材质生成工具、AI 生成工具、虚拟资产创作工具
一种新的视频超分辨率(VSR)模型,旨在生成具有高频细节和时间一致性的视频。