先进的文本到图像生成模型,支持中文和英文输入,能够根据文本描述生成高质量的图像。
Meta推出的一种新型视频自监督学习模型,能够通过观看视频自主学习物理世界的视觉表示,无需外部标注数据。
高效地将PDF文件和其他文档转换为结构化的纯文本。
可控高效零样本文本到语音(TTS)系统,基于XTTS和Tortoise开发,能够纠正中文发音并控制停顿,同时在音质和说话者相似度方面表现出色。
一个开源的Python库,旨在简化实时音频和视频AI应用的开发过程。
DeepSeek 开源的一款高性能通信库,专为混合专家模型(MoE)和专家并行(EP)设计,提供高吞吐量和低延迟的通信解决方案,显著提升大规模分布式训练和推理的效率。
一款由阶跃星辰团队开发的开源文本到视频生成模型,拥有 300 亿参数,能够根据文本提示生成长达 204 帧的高质量视频,支持中英双语输入,并通过深度压缩技术和直接偏好优化提升生成效果。
面向中小团队的 AI 聊天工具,支持多种主流 AI 模型,旨在为团队提供高效、智能的协作体验。
视频生成框架,通过跨模态对齐技术结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。
北京大学、Hedra Inc.和Nvidia联合推出的一款高效视频生成模型,能够在短时间内生成高质量的视频片段。
一款强大的开源语音交互模型,能够实现语音识别、对话生成、情感克隆和多语言支持,为用户提供高质量的实时语音交互体验。
昆仑万维开源的中国首个面向AI短剧创作的视频生成模型,能够实现影视级人物微表情表演生成和高质量视频创作。
图像到视频生成模型,能够从单张照片生成1K分辨率的多视角高清人像视频。
一款无需训练即可实现视频重光照的工具,通过渐进光融合技术,能够快速生成高质量且光照一致的视频。
该模型通过优化内存使用和减少推理延迟,极大提升了视频生成的效率。
能够实现视频中人物的精准替换和动作表情的无缝迁移,为创意设计和影视制作提供强大的技术支持。
它允许用户通过多种控制信号精确控制生成视频中物体的位置和相机运动,带来前所未有的创作自由度。
一款基于PyTorch的音乐生成工具包,支持高音质音乐、歌曲和音频生成,能够通过文本提示、音乐风格和结构等进行可控生成。
一款高保真多语言文本到语音(TTS)模型,支持实时语音克隆和多语言情感控制,能够生成自然、富有表现力的语音。
Meta AI 推出的一款非侵入性脑机接口(BCI)模型,能够通过脑电图(EEG)或脑磁图(MEG)信号解码打字内容。
一款自回归视频生成模型,能够通过未标注的视频数据学习知识,并在围棋和机器人控制等任务中表现出色。
一款深度学习模型,专门用于从图像和视频中快速移除背景并提取前景。
一款开源的多模态AI模型,专注于图像生成与多模态理解任务,性能超越DALL-E 3和Stable Diffusion,适用于创意设计、教育、企业隐私保护等多种场景。
DeepSeek推出的第一代推理模型,性能与OpenAI的o1正式版相当,且开源了模型权重与训练框架。
微软开发的开源框架,旨在设计、开发和评估自主AIOps智能代理,并构建可复现、标准化、互操作性强且可扩展的基准测试环境。
国内首个输出分步式讲解的推理模型,专为教育场景设计,能够通过思维链技术模拟人类思考过程,帮助学生更好地理解和掌握知识。
支持中英文提示词的AI角色生成工具,能够根据用户输入的描述生成具有独特外观和风格的角色图像。
Gemini AI AnyChat是一个实验性平台,展示了 Gemini AI 在视觉处理领域的突破,能够同时处理实时视频和静态图像。
Kokoro是一款新发布的语音合成模型,具有8200万参数,以其轻量级设计和高效性能在TTS领域表现卓越。
全新开源模型,包括基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01,旨在为开发者提供强大的 AI 能力。
具备强大的预测能力,可处理长达2048个时间点的单变量时间序列,支持任意预测时间跨度。
NVIDIA 推出的最新一代高性能计算架构,专为加速人工智能和高性能计算而设计。
一种基于音频条件的潜在扩散模型的端到端唇同步框架,能够直接建模复杂的音视频关联.
TANGOFLUX是一个高效的文本到音频(TTA)生成模型,拥有515M参数,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。
VMix 是一个用于提升文本到图像扩散模型美学质量的插件式美学适配器。它通过在图像生成过程中引入美学控制,增强了生成图像的美学表现,同时保持了图像与文本的对齐。
一个用于图像超分辨率的开源工具,它通过先进的算法来增强图像的分辨率,使低分辨率图像变得更加清晰。
DisPose 是一种可控制的人体图像动画方法,它通过运动场引导和关键点对应来提高视频生成的质量。
INFP是一个音频驱动的交互式头部生成框架,能够在双向对话中动态合成具有逼真面部表情和节奏性头部姿态动作的代理视频。
给定一个参考图像池,ColorFlow 能够为黑白图像序列中的各种元素(包括角色的头发颜色和服装)准确地生成颜色,并确保与参考图像的颜色一致性。
一个可控音频生成模型,能够根据一组可解释的时变控制信号(响度、亮度、音高)和文本提示来创造高质量的声音。
Meta 公司推出的开源 AI 视频水印工具,旨在通过在 AI 生成的视频中加入不可察觉的水印来打击深度伪造和保护原创内容。
一款集成空间编织注意力的扩散模型工具,用于简化表情包视频的制作过程,提升图像和视频生成的质量和效率。
一项基于多模态联合训练的AI音频合成技术,能够根据视频或文本输入自动生成同步的音频效果。
一款专注于视频质量修复与增强的全新工具,能够一键将模糊视频变为超高清视频。
一款功能强大的图像生成和编辑模型,旨在通过一站式解决方案,高效处理多种视觉任务。
一款先进的文本图像到视频生成模型,能够根据简单的文本输入和图像生成高质量的视频内容。
AnyChat是一个集成了多种AI模型的多AI聊天平台,提供实时音视频交互和全功能APP解决方案。
一款集成了图像和文本引导的可控图像生成工具,支持图像融合和风格转移等多种功能。
SAMURAI 是一种基于 Segment Anything Model 2 (SAM 2) 增强的视觉对象跟踪工具,它通过引入时间运动线索和运动感知记忆选择机制,实现了无需重新训练或微调的鲁棒、准确跟踪。
Black Forest Labs(黑森林实验室)开发的一系列高性能图像生成模型的工具包。
项目旨在通过人工智能技术,创造一个无限广阔的数字宇宙,实现与现实世界相媲美的视觉效果和实时互动能力。
XiYan-SQL是一个创新的框架,它采用多生成器集成策略来提高自然语言到SQL任务中的候选生成质量。
一个统一的可控视频生成方法,它能够实现在不同条件下精确且一致的视频操作,包括相机轨迹、文本提示和用户动作注释。
一款基于视频扩散模型(VDM)的虚拟试穿技术,它能够结合给定的服装图像和人物视频,生成人物穿着该服装的高质量试穿视频。
微软TinyTroupe是一款基于大型语言模型(LLM)的人格模拟AI工具,能够模拟具备特定性格、兴趣和目标的虚拟角色。
CHANGER是一种新型头部融合管道,旨在为数字内容创作提供高保真的头部合成解决方案,特别适用于视觉效果(VFX)、数字人物创建和虚拟头像等领域。
Meissonic是一款由阿里巴巴集团、Skywork AI及多所高校共同研发的颠覆性图像生成模型,它基于掩蔽图像建模技术,能够生成高质量、高分辨率的图像。
AlphaFold3是由谷歌DeepMind团队开发的AI模型,能够预测蛋白质、核酸(DNA和RNA)、小分子、离子及修饰残基等生物分子的三维结构。
Qwen2.5-Coder是通义千问团队开源的一系列AI编程模型,旨在提升编程效率和性能,支持多种编程语言和代码相关任务。
一项由字节跳动和清华大学联合开发的肖像动画技术,它能够将静态肖像图像和驱动表演视频结合起来,生成具有高度表现力和真实感的角色动画和视频。
先进的文本到图像生成模型,支持中文和英文输入,能够根据文本描述生成高质量的图像。