DisPose 是一种可控制的人体图像动画方法,它通过运动场引导和关键点对应来提高视频生成的质量。
INFP是一个音频驱动的交互式头部生成框架,能够在双向对话中动态合成具有逼真面部表情和节奏性头部姿态动作的代理视频。
给定一个参考图像池,ColorFlow 能够为黑白图像序列中的各种元素(包括角色的头发颜色和服装)准确地生成颜色,并确保与参考图像的颜色一致性。
一个可控音频生成模型,能够根据一组可解释的时变控制信号(响度、亮度、音高)和文本提示来创造高质量的声音。
OpenAI公司推出的最新推理系列模型,代表了人工智能在推理能力上的一次重大进步。
一款实验性AI模型,能够展示推理过程中的思考过程,并支持深度可视化。
一款由 NVIDIA 提供的高性能、低成本的边缘 AI 开发套件,专为生成式 AI 工作负载和多模态智能体应用设计。
一款针对复杂推理问题的全新大模型,它能够在回答问题之前进行更长时间的“思考”,以提供更准确和全面的响应。
一个多模态人工智能平台,它能够像人类一样理解视频内容,帮助用户在任何应用中实现视频内容的深度分析和利用。
谷歌云平台推出的第三代张量处理器,专为机器学习和高性能计算工作负载设计。
Meta 公司推出的开源 AI 视频水印工具,旨在通过在 AI 生成的视频中加入不可察觉的水印来打击深度伪造和保护原创内容。
一款集成空间编织注意力的扩散模型工具,用于简化表情包视频的制作过程,提升图像和视频生成的质量和效率。
一款基于大型语言模型的人工智能工具,旨在提供安全、有帮助且准确的对话体验。
一项基于多模态联合训练的AI音频合成技术,能够根据视频或文本输入自动生成同步的音频效果。
一款专注于视频质量修复与增强的全新工具,能够一键将模糊视频变为超高清视频。
一款功能强大的图像生成和编辑模型,旨在通过一站式解决方案,高效处理多种视觉任务。
一款先进的文本图像到视频生成模型,能够根据简单的文本输入和图像生成高质量的视频内容。
AnyChat是一个集成了多种AI模型的多AI聊天平台,提供实时音视频交互和全功能APP解决方案。
一款集成了图像和文本引导的可控图像生成工具,支持图像融合和风格转移等多种功能。
昆仑万维推出的国内首款具备中文逻辑推理能力的大模型,旨在提升模型的深度思考和复杂推理能力,是追求人工通用智能(AGI)的重要一步。
SAMURAI 是一种基于 Segment Anything Model 2 (SAM 2) 增强的视觉对象跟踪工具,它通过引入时间运动线索和运动感知记忆选择机制,实现了无需重新训练或微调的鲁棒、准确跟踪。
Black Forest Labs(黑森林实验室)开发的一系列高性能图像生成模型的工具包。
项目旨在通过人工智能技术,创造一个无限广阔的数字宇宙,实现与现实世界相媲美的视觉效果和实时互动能力。
XiYan-SQL是一个创新的框架,它采用多生成器集成策略来提高自然语言到SQL任务中的候选生成质量。
一个统一的可控视频生成方法,它能够实现在不同条件下精确且一致的视频操作,包括相机轨迹、文本提示和用户动作注释。
一款专门用于复杂推理的复合AI模型,它通过在推理层交织多个开放模型,实现了与许多封闭前沿模型相匹配甚至超越的推理能力。
一款支持超长上下文处理的语言模型,能够处理长达 1M tokens 的文本,并在长文本任务中表现出色。
一款基于视频扩散模型(VDM)的虚拟试穿技术,它能够结合给定的服装图像和人物视频,生成人物穿着该服装的高质量试穿视频。
微软TinyTroupe是一款基于大型语言模型(LLM)的人格模拟AI工具,能够模拟具备特定性格、兴趣和目标的虚拟角色。
Claude3.5Opus是一款由Anthropic公司开发的高级人工智能模型,专注于处理复杂任务并提供深度分析。
CHANGER是一种新型头部融合管道,旨在为数字内容创作提供高保真的头部合成解决方案,特别适用于视觉效果(VFX)、数字人物创建和虚拟头像等领域。
Meissonic是一款由阿里巴巴集团、Skywork AI及多所高校共同研发的颠覆性图像生成模型,它基于掩蔽图像建模技术,能够生成高质量、高分辨率的图像。
AlphaFold3是由谷歌DeepMind团队开发的AI模型,能够预测蛋白质、核酸(DNA和RNA)、小分子、离子及修饰残基等生物分子的三维结构。
Qwen2.5-Coder是通义千问团队开源的一系列AI编程模型,旨在提升编程效率和性能,支持多种编程语言和代码相关任务。
一项由字节跳动和清华大学联合开发的肖像动画技术,它能够将静态肖像图像和驱动表演视频结合起来,生成具有高度表现力和真实感的角色动画和视频。
FLUX1.1 Pro Ultra是由Black Forest Labs开发的一款高分辨率图像生成模型,它支持高达4MP的图像分辨率,并能在10秒内生成一张样本图像。
FLUX.1-dev LoRA 服装生成器利用先进的人工智能技术,为用户带来前所未有的时尚设计体验,让设计小白也能秒出服装效果图。
Moonshine是一个为边缘设备提供快速且准确的自动语音识别(ASR)的工具。
Anthropic 公司推出的一款人工智能模型,以其快速响应和增强推理能力而著称,适合需要速度与智能并重的任务。
xAI API是马斯克推出的人工智能公司xAI提供的应用程序接口,允许开发者使用其Grok系列基础模型进行自定义应用开发和集成。
Meta MobileLLM是Meta(前Facebook)推出的专为移动设备设计和优化的大型语言模型,旨在解决云计算成本上升和延迟问题,使其非常适合在资源受限的设备上运行。
Toy Box Flux 是一个利用AI生成图像训练的3D渲染模型,结合了3D LoRA模型和Coloring Book Flux LoRA的权重,形成了独特的风格,特别适合生成具有特定风格的玩具设计图像。
Sana 是一个文本到图像的框架,能够高效生成高达4096×4096分辨率的图像。它以极快的速度合成高分辨率、高质量的图像,并保持强文本图像对齐,可部署在笔记本电脑GPU上。
NVIDIA推出的一款大型语言模型,它基于70亿参数的Nematron模型,经过特定指令训练,以提高其在自然语言处理任务中的性能和准确性。
Yi-Lightning是零一万物公司最新发布的高性能AI模型,以其卓越的推理速度和生成质量在国际权威盲测榜单LMSYS上取得世界第六、中国第一的排名。
一款基于百度领先的视觉大模型核心技术和丰富的场景化算法方案,致力于帮助企业和行业伙伴零门槛、低成本建设专业级视觉AI应用的平台。
OpenAI 开发的一个分布式计算工具,旨在简化跨多个机器和容器的复杂任务的执行和管理。
九天人工智能平台提供人工智能算力、算法、数据,汇聚优秀AI能力,打造从智算基础设施、核心算法能力到智能化应用的全栈人工智能服务,全面支持自智网络等多样化运营商智慧运营需求,为工业、医疗、政务、教育、金融等行业客户构建创新解决方案。
一个基于深度学习的文本到语音(Text-to-Speech,简称TTS)转换工具,由SWivid开发,旨在将文本转换为自然听起来的语音。
FLUX.1-Turbo-Alpha 是由阿里巴巴集团旗下的阿里妈妈创意团队开发的一个预训练语言模型。
一个致力于构建下一代高级多模态人工智能的平台,它通过快速、强大且先进的推理能力,为用户提供直观且易于访问的服务。
一款由快手与北京大学联合研发并开源的视频生成模型。该模型利用深度学习技术,能够实现高质量的视频生成和处理,为用户提供了一种创新的视频内容创作工具。
一个大规模、高质量的数据集,它包含了5.7万亿个优质tokens,旨在为大语言模型训练提供丰富的数据资源。
该工具让开发者可以在几分钟内启动AI应用,无需庞大团队和复杂的技术基础。对于企业而言,这意味着能够快速推出AI项目,提升创新能力,加速技术转化。
苹果最新推出的 AI 模型 Depth Pro 在深度估计领域取得重大突破,能快速生成高分辨率的3D深度图,无需相机元数据。该模型工作速度快,能捕捉微小细节,提供绝对深度估计,且开源共享。
一种3D虚拟试衣技术,它通过使用高斯散射(3DGS)作为3D表示,实现了从2D虚拟试衣模型到3D空间的知识转移,同时提高了跨视图的一致性。
一个用于处理和分析大量文本数据的API服务。
Adobe推出的一个旨在提高数字内容真实性和可追溯性的工具。
Black Forest Labs 以 Beta 版形式推出 BFL API,从而支持开发者将 Flux 模型集成到他们的应用程序中。
Dream Machine 是 Luma Labs 提供的一套人工智能 API 工具,旨在帮助开发者轻松集成 AI 功能到他们的应用程序中。
DisPose 是一种可控制的人体图像动画方法,它通过运动场引导和关键点对应来提高视频生成的质量。