腾讯 PCG 的人工智能与机器学习实验室,专注于计算机视觉、语音和自然语言处理等领域,致力于在语音/视频生成、增强、检索、理解以及 AutoML 等技术上进行探索、创新和突破。
高分辨率视频中唇部同步的稳健方法,能够解决唇部运动与音频对齐的问题,同时避免表情泄漏和面部遮挡问题。
理解和评估视频中相机运动的基准工具,旨在通过结合几何和语义信息,提升对视频中相机运动的理解和分析能力。
广泛应用于游戏开发和实时3D内容创作的跨平台引擎,以其强大的功能和广泛的社区支持,成为全球开发者的重要工具。
用户只需上传一张图片并选择声音,即可让角色生动地说话、动作并表达情感,带来令人惊叹的真实感和流畅性。
腾讯混元3D是一款由腾讯推出的基于AI技术的3D创作工具,用户可以通过它轻松创建和编辑3D模型及场景。
无需调优的全向全景图像和视频生成工具,通过球形潜在表示实现高质量的 360 度全景内容生成。
昆仑万维SkyReels团队推出的一款无限时长电影生成模型,基于扩散强迫框架结合多模态大语言模型等技术,能够生成高质量、无限时长的视频内容。
专注于三维空间理解的大语言模型,能够将三维点云数据转化为结构化的三维场景理解输出,广泛应用于机器人导航、建筑设计等领域。
通过深度学习技术将图像转换为精确的 CAD 命令序列,从而实现从现实世界物体到数字孪生模型的快速转换。
多图像条件下的主体到图像生成模型,通过渐进式跨模态对齐和通用旋转位置嵌入,实现了高一致性和可控性的多主体生成。
端到端多模态SVG生成模型,能够通过文本、图像或角色参考等多种输入方式生成高质量的矢量图形。
通过混合引导实现精细的整体可控性、多尺度适应性和长期时间连贯性,能够生成高质量的人像动画。
能够通过自然语言指令生成动态的动漫游戏世界,并预测下一游戏状态,为用户带来沉浸式的动漫角色交互体验。
极具创新性的 AI 创作工具,通过分层创作、非破坏性编辑等强大功能,为用户提供前所未有的创意控制力,让 AI 艺术创作变得更加灵活和自由。
MoCha 是一款能够仅通过语音和文本生成电影级对话角色的合成工具,支持情感控制、动作控制以及多角色对话等功能。
日本动画电影制作公司,由导演宫崎骏、制片人铃木敏夫以及已故导演高畑勋于1985年共同创立。它以高质量的手绘动画、深刻的故事情节和独特的艺术风格闻名于世,作品多次获得国际奖项。
TaoAvatar 能够从多视角图像序列中生成逼真的、拓扑结构一致的 3D 全身虚拟形象
从单张图像重建可动画化三维人体的技术,能够快速生成高保真度的三维人体模型,并在秒级时间内生成具有精细纹理和姿态的虚拟角色。
能够根据文本描述和图像输入生成最长 102 帧的视频,具备运动幅度可控和镜头运动可控等核心特点。
Stability AI 推出的一款 AI 模型,能够将二维图像转换为具有真实深度和透视感的沉浸式三维视频。
旨在通过长上下文调优实现场景级视频生成,弥补单次拍摄生成能力与现实叙事视频制作(如电影)之间的差距,为视频创作带来更连贯、更具叙事性的生成效果。
一款用于生成高分辨率纹理化 3D 资产的大型 3D 合成系统,能够高效地创建高质量的 3D 模型和纹理。
能够从单张图像生成高保真3D场景,通过捕捉物体间的交互关系和空间一致性,实现高效且高质量的3D场景生成。
基于生成式高斯绘制技术的无边界三维城市生成工具,能够高效生成逼真的虚拟城市环境。
视频生成框架,通过跨模态对齐技术结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。
一款文本转语音工具,能够将输入的文本快速转换为高质量、富有表现力的语音内容。
昆仑万维开源的中国首个面向AI短剧创作的视频生成模型,能够实现影视级人物微表情表演生成和高质量视频创作。
能够实现视频中人物的精准替换和动作表情的无缝迁移,为创意设计和影视制作提供强大的技术支持。
它允许用户通过多种控制信号精确控制生成视频中物体的位置和相机运动,带来前所未有的创作自由度。
香港大学与字节跳动联合开发的一款先进的视频生成模型,能够根据文本或图片生成高质量的视频内容。
一款创新的人工智能工具,旨在将二维图像转换为引人入胜的三维动画体验。
一款基于人工智能技术的2D转3D模型生成平台,能够快速将2D图像转换为高质量的3D模型,并支持动画制作,广泛应用于数字艺术、游戏开发和影视制作等领域。
一款基于人工智能的3D艺术外包平台,通过结合机器学习和专业3D团队的力量,能够快速生成高质量的3D模型,帮助游戏开发者和创意工作者大幅提升工作效率。
一款能够将 2D 图像或文本快速转化为高质量 3D 模型的人工智能工具,支持多种格式输出,适用于多种行业和创作场景。
OpenAI开发的最新一代人工智能语言模型,它在处理速度、多模态交互、对话管理等方面实现了显著提升,广泛应用于教育、创意写作、编程辅助等多个领域。
DeepMind开发的一种大规模基础世界模型,旨在通过模拟真实世界环境来训练智能体,使其能够更好地理解和适应复杂多变的现实场景。
款免费AI 3D模型生成工具,能够通过图像和文字生成高质量的3D模型,广泛应用于3D建模、游戏开发、影视制作等领域。
商汤科技推出的AI表演应用,专为创意内容创作者设计,具备强大的生成功能和活跃的创意社区。
编程助手工具,旨在通过智能技术帮助开发者提升编程效率、优化代码质量并解决开发过程中的各种问题。
支持中英文提示词的AI角色生成工具,能够根据用户输入的描述生成具有独特外观和风格的角色图像。
MangaNinja是一种基于参考图像的线稿上色方法,通过独特的设计确保精确的人物细节转录,实现细粒度的颜色匹配和交互控制。
Kinetix AI视频技术是一项能够通过结合真人表演视频和文本指令,精准控制数字角色动作的创新工具。
个提供丰富人体 3D 扫描模型资源的平台,为数字人赛道创业者等提供了宝贵的素材支持。
一种基于音频条件的潜在扩散模型的端到端唇同步框架,能够直接建模复杂的音视频关联.
一个新颖的框架,能够将2D视频转换为沉浸式立体3D视频,满足3D内容在沉浸式体验中日益增长的需求。
DisPose 是一种可控制的人体图像动画方法,它通过运动场引导和关键点对应来提高视频生成的质量。
CAP4D是一个能够利用任意数量的参考图像创建逼真4D化身的工具。
给定一个参考图像池,ColorFlow 能够为黑白图像序列中的各种元素(包括角色的头发颜色和服装)准确地生成颜色,并确保与参考图像的颜色一致性。
一款AI驱动的创新软件,能够将简单的文本描述或图像转化为逼真的3D渲染场景。
谷歌为开发者提供的一套用于构建增强现实(AR)和虚拟现实(VR)应用的工具集。
一项基于多模态联合训练的AI音频合成技术,能够根据视频或文本输入自动生成同步的音频效果。
一款先进的文本图像到视频生成模型,能够根据简单的文本输入和图像生成高质量的视频内容。
SAMURAI 是一种基于 Segment Anything Model 2 (SAM 2) 增强的视觉对象跟踪工具,它通过引入时间运动线索和运动感知记忆选择机制,实现了无需重新训练或微调的鲁棒、准确跟踪。
一种用于3D对象迁移的技术,它能够将3D模型从一个软件环境无缝迁移到另一个,保持模型的完整性和兼容性。
项目旨在通过人工智能技术,创造一个无限广阔的数字宇宙,实现与现实世界相媲美的视觉效果和实时互动能力。
一个统一的可控视频生成方法,它能够实现在不同条件下精确且一致的视频操作,包括相机轨迹、文本提示和用户动作注释。
一项由字节跳动和清华大学联合开发的肖像动画技术,它能够将静态肖像图像和驱动表演视频结合起来,生成具有高度表现力和真实感的角色动画和视频。
Animode是阿里推出的AI动漫视频创作工具,基于3D技术帮助用户创建具有真实感的二次元角色和高质量视频效果。
Wonder Dynamics是一款强大的视频编辑和动画制作软件,旨在为用户提供专业级别的视频处理能力。
腾讯 PCG 的人工智能与机器学习实验室,专注于计算机视觉、语音和自然语言处理等领域,致力于在语音/视频生成、增强、检索、理解以及 AutoML 等技术上进行探索、创新和突破。